TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	Transformer-XL (24 layers)	Bit per Character (BPC)	0.99	# 12
Language Modelling	enwik8	Transformer-XL (24 layers)	Number of params	277M	# 2
Language Modelling	enwik8	Transformer-XL (12 layers)	Bit per Character (BPC)	1.06	# 25
Language Modelling	enwik8	Transformer-XL (12 layers)	Number of params	41M	# 27
Language Modelling	enwik8	Transformer-XL (18 layers)	Bit per Character (BPC)	1.03	# 23
Language Modelling	enwik8	Transformer-XL (18 layers)	Number of params	88M	# 15
Language Modelling	Hutter Prize	24-layer Transformer-XL	Bit per Character (BPC)	0.99	# 4
Language Modelling	Hutter Prize	24-layer Transformer-XL	Number of params	277M	# 1
Language Modelling	Hutter Prize	12-layer Transformer-XL	Bit per Character (BPC)	1.06	# 8
Language Modelling	Hutter Prize	12-layer Transformer-XL	Number of params	41M	# 14
Language Modelling	Hutter Prize	18-layer Transformer-XL	Bit per Character (BPC)	1.03	# 7
Language Modelling	Hutter Prize	18-layer Transformer-XL	Number of params	88M	# 7
Language Modelling	One Billion Word	Transformer-XL Large	PPL	21.8	# 3
Language Modelling	One Billion Word	Transformer-XL Large	Number of params	0.8B	# 1
Language Modelling	One Billion Word	Transformer-XL Base	PPL	23.5	# 6
Language Modelling	One Billion Word	Transformer-XL Base	Number of params	0.46B	# 1
Language Modelling	Penn Treebank (Word Level)	Transformer-XL	Validation perplexity	56.72	# 17
Language Modelling	Penn Treebank (Word Level)	Transformer-XL	Test perplexity	54.55	# 22
Language Modelling	Penn Treebank (Word Level)	Transformer-XL	Params	24M	# 7
Language Modelling	Text8	Transformer-XL - 24 layers	Bit per Character (BPC)	1.08	# 5
Language Modelling	Text8	Transformer-XL - 24 layers	Number of params	277M	# 2
Language Modelling	WikiText-103	Transformer-XL Large	Validation perplexity	18.2	# 16
Language Modelling	WikiText-103	Transformer-XL Large	Test perplexity	18.3	# 33
Language Modelling	WikiText-103	Transformer-XL Large	Number of params	257M	# 12
Language Modelling	WikiText-103	Transformer-XL Standard	Validation perplexity	23.1	# 24
Language Modelling	WikiText-103	Transformer-XL Standard	Test perplexity	24.0	# 54
Language Modelling	WikiText-103	Transformer-XL Standard	Number of params	151M	# 29

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transformer-xl-attentive-language-models/language-modelling-on-one-billion-word)](https://paperswithcode.com/sota/language-modelling-on-one-billion-word?p=transformer-xl-attentive-language-models)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transformer-xl-attentive-language-models/language-modelling-on-hutter-prize)](https://paperswithcode.com/sota/language-modelling-on-hutter-prize?p=transformer-xl-attentive-language-models)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transformer-xl-attentive-language-models/language-modelling-on-text8)](https://paperswithcode.com/sota/language-modelling-on-text8?p=transformer-xl-attentive-language-models)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transformer-xl-attentive-language-models/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=transformer-xl-attentive-language-models)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transformer-xl-attentive-language-models/language-modelling-on-penn-treebank-word)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word?p=transformer-xl-attentive-language-models)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transformer-xl-attentive-language-models/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=transformer-xl-attentive-language-models)`

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

ACL 2019 · Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov ·

Transformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel neural architecture Transformer-XL that enables learning dependency beyond a fixed length without disrupting temporal coherence. It consists of a segment-level recurrence mechanism and a novel positional encoding scheme. Our method not only enables capturing longer-term dependency, but also resolves the context fragmentation problem. As a result, Transformer-XL learns dependency that is 80% longer than RNNs and 450% longer than vanilla Transformers, achieves better performance on both short and long sequences, and is up to 1,800+ times faster than vanilla Transformers during evaluation. Notably, we improve the state-of-the-art results of bpc/perplexity to 0.99 on enwiki8, 1.08 on text8, 18.3 on WikiText-103, 21.8 on One Billion Word, and 54.5 on Penn Treebank (without finetuning). When trained only on WikiText-103, Transformer-XL manages to generate reasonably coherent, novel text articles with thousands of tokens. Our code, pretrained models, and hyperparameters are available in both Tensorflow and PyTorch.

PDF Abstract ACL 2019 PDF ACL 2019 Abstract

Code

Add Remove Mark official

kimiyoung/transformer-xl official

3,554

huggingface/transformers

124,984

labmlai/annotated_deep_learning_pap…

↳ View annotated code at

labml.ai

47,992

NVIDIA/DeepLearningExamples

12,609

NVIDIA/DeepLearningExamples

12,602

See all 35 implementations

Tasks

Add Remove

Language Modelling

Datasets

Penn Treebank

WikiText-2

WikiText-103 Billion Word Benchmark Text8 Hutter Prize

Results from the Paper

Edit

Ranked #3 on Language Modelling on One Billion Word

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	Transformer-XL (24 layers)	Bit per Character (BPC)	0.99	# 12	Compare
Language Modelling	enwik8	Transformer-XL (24 layers)	Number of params	277M	# 2	Compare
Language Modelling	enwik8	Transformer-XL (12 layers)	Bit per Character (BPC)	1.06	# 25	Compare
Language Modelling	enwik8	Transformer-XL (12 layers)	Number of params	41M	# 27	Compare
Language Modelling	enwik8	Transformer-XL (18 layers)	Bit per Character (BPC)	1.03	# 23	Compare
Language Modelling	enwik8	Transformer-XL (18 layers)	Number of params	88M	# 15	Compare
Language Modelling	Hutter Prize	24-layer Transformer-XL	Bit per Character (BPC)	0.99	# 4	Compare
Language Modelling	Hutter Prize	24-layer Transformer-XL	Number of params	277M	# 1	Compare
Language Modelling	Hutter Prize	12-layer Transformer-XL	Bit per Character (BPC)	1.06	# 8	Compare
Language Modelling	Hutter Prize	12-layer Transformer-XL	Number of params	41M	# 14	Compare
Language Modelling	Hutter Prize	18-layer Transformer-XL	Bit per Character (BPC)	1.03	# 7	Compare
Language Modelling	Hutter Prize	18-layer Transformer-XL	Number of params	88M	# 7	Compare
Language Modelling	One Billion Word	Transformer-XL Large	PPL	21.8	# 3	Compare
Language Modelling	One Billion Word	Transformer-XL Large	Number of params	0.8B	# 1	Compare
Language Modelling	One Billion Word	Transformer-XL Base	PPL	23.5	# 6	Compare
Language Modelling	One Billion Word	Transformer-XL Base	Number of params	0.46B	# 1	Compare
Language Modelling	Penn Treebank (Word Level)	Transformer-XL	Validation perplexity	56.72	# 17	Compare
			Test perplexity	54.55	# 22	Compare
			Params	24M	# 7	Compare
Language Modelling	Text8	Transformer-XL - 24 layers	Bit per Character (BPC)	1.08	# 5	Compare
Language Modelling	Text8	Transformer-XL - 24 layers	Number of params	277M	# 2	Compare
Language Modelling	WikiText-103	Transformer-XL Large	Validation perplexity	18.2	# 16	Compare
			Test perplexity	18.3	# 33	Compare
			Number of params	257M	# 12	Compare
Language Modelling	WikiText-103	Transformer-XL Standard	Validation perplexity	23.1	# 24	Compare
			Test perplexity	24.0	# 54	Compare
			Number of params	151M	# 29	Compare

Methods

Add Remove

Adam • Adaptive Input Representations • Adaptive Softmax • Cosine Annealing • Dense Connections • Dropout • Layer Normalization • Linear Layer • Linear Warmup With Cosine Annealing • Multi-Head Attention • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer-XL • Variational Dropout

Edit Social Preview

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove