TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	Penn Treebank (Word Level)	adversarial + AWD-LSTM-MoS + dynamic eval	Validation perplexity	46.63	# 3
Language Modelling	Penn Treebank (Word Level)	adversarial + AWD-LSTM-MoS + dynamic eval	Test perplexity	46.01	# 5
Language Modelling	Penn Treebank (Word Level)	adversarial + AWD-LSTM-MoS + dynamic eval	Params	22M	# 23
Language Modelling	WikiText-103	AdvSoft (+ 4 layer QRNN + dynamic eval)	Validation perplexity	27.2	# 26
Language Modelling	WikiText-103	AdvSoft (+ 4 layer QRNN + dynamic eval)	Test perplexity	28.0	# 65
Language Modelling	WikiText-2	adversarial + AWD-LSTM-MoS + dynamic eval	Validation perplexity	40.27	# 4
Language Modelling	WikiText-2	adversarial + AWD-LSTM-MoS + dynamic eval	Test perplexity	38.65	# 12
Language Modelling	WikiText-2	adversarial + AWD-LSTM-MoS + dynamic eval	Number of params	35M	# 12
Machine Translation	WMT2014 English-German	Transformer Big + adversarial MLE	BLEU score	29.52	# 24
Machine Translation	WMT2014 English-German	Transformer Big + adversarial MLE	Hardware Burden	None	# 1
Machine Translation	WMT2014 English-German	Transformer Big + adversarial MLE	Operations per network pass	None	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-neural-language-modeling-via/language-modelling-on-penn-treebank-word)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word?p=improving-neural-language-modeling-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-neural-language-modeling-via/language-modelling-on-wikitext-2)](https://paperswithcode.com/sota/language-modelling-on-wikitext-2?p=improving-neural-language-modeling-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-neural-language-modeling-via/machine-translation-on-wmt2014-english-german)](https://paperswithcode.com/sota/machine-translation-on-wmt2014-english-german?p=improving-neural-language-modeling-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-neural-language-modeling-via/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=improving-neural-language-modeling-via)`

Improving Neural Language Modeling via Adversarial Training

10 Jun 2019 · Dilin Wang, Chengyue Gong, Qiang Liu ·

Recently, substantial progress has been made in language modeling by using deep neural networks. However, in practice, large scale neural language models have been shown to be prone to overfitting. In this paper, we present a simple yet highly effective adversarial training mechanism for regularizing neural language models. The idea is to introduce adversarial noise to the output embedding layer while training the models. We show that the optimal adversarial noise yields a simple closed-form solution, thus allowing us to develop a simple and time efficient algorithm. Theoretically, we show that our adversarial mechanism effectively encourages the diversity of the embedding vectors, helping to increase the robustness of models. Empirically, we show that our method improves on the single model state-of-the-art results for language modeling on Penn Treebank (PTB) and Wikitext-2, achieving test perplexity scores of 46.01 and 38.07, respectively. When applied to machine translation, our method improves over various transformer-based translation baselines in BLEU scores on the WMT14 English-German and IWSLT14 German-English tasks.

PDF Abstract

Code

Add Remove Mark official

ChengyueGongR/advsoft official

Tasks

Add Remove

Language Modelling

Machine Translation

Translation

Datasets

Penn Treebank

WikiText-2

WikiText-103

WMT 2014

Results from the Paper

Edit

Ranked #5 on Language Modelling on Penn Treebank (Word Level)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	Penn Treebank (Word Level)	adversarial + AWD-LSTM-MoS + dynamic eval	Validation perplexity	46.63	# 3	Compare
			Test perplexity	46.01	# 5	Compare
			Params	22M	# 23	Compare
Language Modelling	WikiText-103	AdvSoft (+ 4 layer QRNN + dynamic eval)	Validation perplexity	27.2	# 26	Compare
Language Modelling	WikiText-103	AdvSoft (+ 4 layer QRNN + dynamic eval)	Test perplexity	28.0	# 65	Compare
Language Modelling	WikiText-2	adversarial + AWD-LSTM-MoS + dynamic eval	Validation perplexity	40.27	# 4	Compare
			Test perplexity	38.65	# 12	Compare
			Number of params	35M	# 12	Compare
Machine Translation	WMT2014 English-German	Transformer Big + adversarial MLE	BLEU score	29.52	# 24	Compare
			Hardware Burden	None	# 1	Compare
			Operations per network pass	None	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Improving Neural Language Modeling via Adversarial Training

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove