TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	Feedback Transformer	Bit per Character (BPC)	0.96	# 6
Language Modelling	enwik8	Feedback Transformer	Number of params	77M	# 16
Language Modelling	Penn Treebank (Character Level)	Feedback Transformer	Bit per Character (BPC)	1.160	# 5
Language Modelling	Penn Treebank (Character Level)	Feedback Transformer	Number of params	10.7M	# 12
Language Modelling	WikiText-103	Feedback Transformer (4 layers)	Validation perplexity	21.4	# 21
Language Modelling	WikiText-103	Feedback Transformer (4 layers)	Test perplexity	22.4	# 47
Language Modelling	WikiText-103	Feedback Transformer (4 layers)	Number of params	44M	# 44
Language Modelling	WikiText-103	Feedback Transformer (8 layers)	Validation perplexity	17.5	# 13
Language Modelling	WikiText-103	Feedback Transformer (8 layers)	Test perplexity	18.2	# 32
Language Modelling	WikiText-103	Feedback Transformer (8 layers)	Number of params	139M	# 34

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/accessing-higher-level-representations-in/language-modelling-on-penn-treebank-character)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-character?p=accessing-higher-level-representations-in)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/accessing-higher-level-representations-in/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=accessing-higher-level-representations-in)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/accessing-higher-level-representations-in/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=accessing-higher-level-representations-in)`

Addressing Some Limitations of Transformers with Feedback Memory

21 Feb 2020 · Angela Fan, Thibaut Lavril, Edouard Grave, Armand Joulin, Sainbayar Sukhbaatar ·

Transformers have been successfully applied to sequential, auto-regressive tasks despite being feedforward networks. Unlike recurrent neural networks, Transformers use attention to capture temporal relations while processing input tokens in parallel. While this parallelization makes them computationally efficient, it restricts the model from fully exploiting the sequential nature of the input. The representation at a given layer can only access representations from lower layers, rather than the higher level representations already available. In this work, we propose the Feedback Transformer architecture that exposes all previous representations to all future representations, meaning the lowest representation of the current timestep is formed from the highest-level abstract representation of the past. We demonstrate on a variety of benchmarks in language modeling, machine translation, and reinforcement learning that the increased representation capacity can create small, shallow models with much stronger performance than comparable Transformers.

PDF Abstract

Code

Add Remove Mark official

facebookresearch/transformer-sequen… official

136

labmlai/annotated_deep_learning_pap…

↳ View annotated code at

labml.ai

47,992

lucidrains/feedback-transformer-pyt…

103

rajaswa/feedback-and-memory-in-tran…

↳ Quickstart in

Colab

Tasks

Add Remove

Language Modelling

Machine Translation

Translation

Datasets

Penn Treebank

WikiText-2

WikiText-103

Results from the Paper

Edit

Ranked #5 on Language Modelling on Penn Treebank (Character Level)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	Feedback Transformer	Bit per Character (BPC)	0.96	# 6	Compare
Language Modelling	enwik8	Feedback Transformer	Number of params	77M	# 16	Compare
Language Modelling	Penn Treebank (Character Level)	Feedback Transformer	Bit per Character (BPC)	1.160	# 5	Compare
Language Modelling	Penn Treebank (Character Level)	Feedback Transformer	Number of params	10.7M	# 12	Compare
Language Modelling	WikiText-103	Feedback Transformer (4 layers)	Validation perplexity	21.4	# 21	Compare
			Test perplexity	22.4	# 47	Compare
			Number of params	44M	# 44	Compare
Language Modelling	WikiText-103	Feedback Transformer (8 layers)	Validation perplexity	17.5	# 13	Compare
			Test perplexity	18.2	# 32	Compare
			Number of params	139M	# 34	Compare

Methods

Add Remove

A2C • Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Feedback Memory • Feedback Transformer • GELU • Label Smoothing • Layer Normalization • Linear Layer • LSTM • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • RMSProp • Scaled Dot-Product Attention • Sigmoid Activation • Softmax • Tanh Activation • Transformer

Edit Social Preview

Addressing Some Limitations of Transformers with Feedback Memory

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove