TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	Transformer-XL (24 layers, RMS dynamic eval, decay)	Bit per Character (BPC)	0.940	# 2
Language Modelling	enwik8	Transformer-XL (24 layers, RMS dynamic eval, decay)	Number of params	277M	# 2
Language Modelling	Hutter Prize	Transformer-XL + RMS dynamic eval	Bit per Character (BPC)	0.94	# 1
Language Modelling	Hutter Prize	Transformer-XL + RMS dynamic eval	Number of params	277M	# 1
Language Modelling	Text8	Transformer-XL + RMS dynamic eval + decay	Bit per Character (BPC)	1.038	# 3
Language Modelling	Text8	Transformer-XL + RMS dynamic eval + decay	Number of params	277M	# 2
Language Modelling	WikiText-103	Transformer-XL (SGD dynamic eval)	Validation perplexity	16.3	# 7
Language Modelling	WikiText-103	Transformer-XL (SGD dynamic eval)	Test perplexity	17.0	# 19
Language Modelling	WikiText-103	Transformer-XL (SGD dynamic eval)	Number of params	257M	# 12
Language Modelling	WikiText-103	Transformer-XL (RMS dynamic eval)	Validation perplexity	15.8	# 3
Language Modelling	WikiText-103	Transformer-XL (RMS dynamic eval)	Test perplexity	16.4	# 13
Language Modelling	WikiText-103	Transformer-XL (RMS dynamic eval)	Number of params	257M	# 12

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dynamic-evaluation-of-transformer-language/language-modelling-on-hutter-prize)](https://paperswithcode.com/sota/language-modelling-on-hutter-prize?p=dynamic-evaluation-of-transformer-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dynamic-evaluation-of-transformer-language/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=dynamic-evaluation-of-transformer-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dynamic-evaluation-of-transformer-language/language-modelling-on-text8)](https://paperswithcode.com/sota/language-modelling-on-text8?p=dynamic-evaluation-of-transformer-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dynamic-evaluation-of-transformer-language/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=dynamic-evaluation-of-transformer-language)`

Dynamic Evaluation of Transformer Language Models

17 Apr 2019 · Ben Krause, Emmanuel Kahembwe, Iain Murray, Steve Renals ·

This research note combines two methods that have recently improved the state of the art in language modeling: Transformers and dynamic evaluation. Transformers use stacked layers of self-attention that allow them to capture long range dependencies in sequential data. Dynamic evaluation fits models to the recent sequence history, allowing them to assign higher probabilities to re-occurring sequential patterns. By applying dynamic evaluation to Transformer-XL models, we improve the state of the art on enwik8 from 0.99 to 0.94 bits/char, text8 from 1.08 to 1.04 bits/char, and WikiText-103 from 18.3 to 16.4 perplexity points.

PDF Abstract

Code

Add Remove Mark official

benkrause/dynamiceval-transformer

Tasks

Add Remove

Language Modelling

Datasets

WikiText-2

WikiText-103 Text8 Hutter Prize

Results from the Paper

Edit

Ranked #1 on Language Modelling on Hutter Prize

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	Transformer-XL (24 layers, RMS dynamic eval, decay)	Bit per Character (BPC)	0.940	# 2	Compare
Language Modelling	enwik8	Transformer-XL (24 layers, RMS dynamic eval, decay)	Number of params	277M	# 2	Compare
Language Modelling	Hutter Prize	Transformer-XL + RMS dynamic eval	Bit per Character (BPC)	0.94	# 1	Compare
Language Modelling	Hutter Prize	Transformer-XL + RMS dynamic eval	Number of params	277M	# 1	Compare
Language Modelling	Text8	Transformer-XL + RMS dynamic eval + decay	Bit per Character (BPC)	1.038	# 3	Compare
Language Modelling	Text8	Transformer-XL + RMS dynamic eval + decay	Number of params	277M	# 2	Compare
Language Modelling	WikiText-103	Transformer-XL (SGD dynamic eval)	Validation perplexity	16.3	# 7	Compare
			Test perplexity	17.0	# 19	Compare
			Number of params	257M	# 12	Compare
Language Modelling	WikiText-103	Transformer-XL (RMS dynamic eval)	Validation perplexity	15.8	# 3	Compare
			Test perplexity	16.4	# 13	Compare
			Number of params	257M	# 12	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Dynamic Evaluation of Transformer Language Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove