TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	LSTM	Bit per Character (BPC)	1.195	# 31
Language Modelling	enwik8	LSTM	Number of params	48M	# 20
Language Modelling	enwik8	Mogrifier LSTM	Bit per Character (BPC)	1.146	# 30
Language Modelling	enwik8	Mogrifier LSTM	Number of params	48M	# 20
Language Modelling	Hutter Prize	Mogrifier LSTM	Bit per Character (BPC)	1.122	# 12
Language Modelling	Hutter Prize	Mogrifier LSTM	Number of params	96M	# 5
Language Modelling	Hutter Prize	Mogrifier LSTM + dynamic eval	Bit per Character (BPC)	0.988	# 3
Language Modelling	Hutter Prize	Mogrifier LSTM + dynamic eval	Number of params	96M	# 5
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM + dynamic eval	Bit per Character (BPC)	1.083	# 1
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM + dynamic eval	Number of params	24M	# 3
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM	Bit per Character (BPC)	1.120	# 2
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM	Number of params	24M	# 3
Language Modelling	Penn Treebank (Word Level)	Mogrifier LSTM + dynamic eval	Validation perplexity	44.8	# 2
Language Modelling	Penn Treebank (Word Level)	Mogrifier LSTM + dynamic eval	Test perplexity	44.9	# 4
Language Modelling	Penn Treebank (Word Level)	Mogrifier LSTM + dynamic eval	Params	24M	# 7
Language Modelling	WikiText-2	Mogrifier LSTM	Validation perplexity	57.3	# 15
Language Modelling	WikiText-2	Mogrifier LSTM	Test perplexity	55.1	# 22
Language Modelling	WikiText-2	Mogrifier LSTM	Number of params	35M	# 12
Language Modelling	WikiText-2	Mogrifier LSTM + dynamic eval	Validation perplexity	40.2	# 3
Language Modelling	WikiText-2	Mogrifier LSTM + dynamic eval	Test perplexity	38.6	# 11
Language Modelling	WikiText-2	Mogrifier LSTM + dynamic eval	Number of params	35M	# 12

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mogrifier-lstm/language-modelling-on-penn-treebank-character)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-character?p=mogrifier-lstm)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mogrifier-lstm/language-modelling-on-hutter-prize)](https://paperswithcode.com/sota/language-modelling-on-hutter-prize?p=mogrifier-lstm)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mogrifier-lstm/language-modelling-on-penn-treebank-word)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word?p=mogrifier-lstm)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mogrifier-lstm/language-modelling-on-wikitext-2)](https://paperswithcode.com/sota/language-modelling-on-wikitext-2?p=mogrifier-lstm)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mogrifier-lstm/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=mogrifier-lstm)`

Mogrifier LSTM

ICLR 2020 · Gábor Melis, Tomáš Kočiský, Phil Blunsom ·

Many advances in Natural Language Processing have been based upon more expressive models for how inputs interact with the context in which they occur. Recurrent networks, which have enjoyed a modicum of success, still lack the generalization and systematicity ultimately required for modelling language. In this work, we propose an extension to the venerable Long Short-Term Memory in the form of mutual gating of the current input and the previous output. This mechanism affords the modelling of a richer space of interactions between inputs and their context. Equivalently, our model can be viewed as making the transition function given by the LSTM context-dependent. Experiments demonstrate markedly improved generalization on language modelling in the range of 3-4 perplexity points on Penn Treebank and Wikitext-2, and 0.01-0.05 bpc on four character-based datasets. We establish a new state of the art on all datasets with the exception of Enwik8, where we close a large gap between the LSTM and Transformer models.

PDF Abstract ICLR 2020 PDF ICLR 2020 Abstract

Code

Add Remove Mark official

deepmind/lamb official

137

RMichaelSwan/MogrifierLSTM

↳ Quickstart in

Colab

microcoder-py/mogrifier-lstm

Tasks

Add Remove

Language Modelling

Datasets

Penn Treebank

WikiText-2 Hutter Prize

Results from the Paper

Edit

Ranked #1 on Language Modelling on Penn Treebank (Character Level)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	LSTM	Bit per Character (BPC)	1.195	# 31	Compare
Language Modelling	enwik8	LSTM	Number of params	48M	# 20	Compare
Language Modelling	enwik8	Mogrifier LSTM	Bit per Character (BPC)	1.146	# 30	Compare
Language Modelling	enwik8	Mogrifier LSTM	Number of params	48M	# 20	Compare
Language Modelling	Hutter Prize	Mogrifier LSTM	Bit per Character (BPC)	1.122	# 12	Compare
Language Modelling	Hutter Prize	Mogrifier LSTM	Number of params	96M	# 5	Compare
Language Modelling	Hutter Prize	Mogrifier LSTM + dynamic eval	Bit per Character (BPC)	0.988	# 3	Compare
Language Modelling	Hutter Prize	Mogrifier LSTM + dynamic eval	Number of params	96M	# 5	Compare
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM + dynamic eval	Bit per Character (BPC)	1.083	# 1	Compare
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM + dynamic eval	Number of params	24M	# 3	Compare
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM	Bit per Character (BPC)	1.120	# 2	Compare
Language Modelling	Penn Treebank (Character Level)	Mogrifier LSTM	Number of params	24M	# 3	Compare
Language Modelling	Penn Treebank (Word Level)	Mogrifier LSTM + dynamic eval	Validation perplexity	44.8	# 2	Compare
			Test perplexity	44.9	# 4	Compare
			Params	24M	# 7	Compare
Language Modelling	WikiText-2	Mogrifier LSTM	Validation perplexity	57.3	# 15	Compare
			Test perplexity	55.1	# 22	Compare
			Number of params	35M	# 12	Compare
Language Modelling	WikiText-2	Mogrifier LSTM + dynamic eval	Validation perplexity	40.2	# 3	Compare
			Test perplexity	38.6	# 11	Compare
			Number of params	35M	# 12	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • LSTM • Mogrifier LSTM • Multi-Head Attention • Position-Wise Feed-Forward Layer • ReLU • Residual Connection • Scaled Dot-Product Attention • Sigmoid Activation • Softmax • Tanh Activation • Transformer

Edit Social Preview

Mogrifier LSTM

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove