TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-DOC + Partial Shuffle	Validation perplexity	53.79	# 12
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-DOC + Partial Shuffle	Test perplexity	52.0	# 15
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-DOC + Partial Shuffle	Params	23M	# 19
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-MoS + Partial Shuffle	Validation perplexity	55.89	# 15
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-MoS + Partial Shuffle	Test perplexity	53.92	# 18
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-MoS + Partial Shuffle	Params	22M	# 23
Language Modelling	WikiText-2	AWD-LSTM-MoS + Partial Shuffle	Validation perplexity	62.38	# 18
Language Modelling	WikiText-2	AWD-LSTM-MoS + Partial Shuffle	Test perplexity	59.98	# 25
Language Modelling	WikiText-2	AWD-LSTM-MoS + Partial Shuffle	Number of params	35M	# 12
Language Modelling	WikiText-2	AWD-LSTM-DOC + Partial Shuffle	Validation perplexity	60.16	# 16
Language Modelling	WikiText-2	AWD-LSTM-DOC + Partial Shuffle	Test perplexity	57.85	# 23
Language Modelling	WikiText-2	AWD-LSTM-DOC + Partial Shuffle	Number of params	37M	# 9

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/partially-shuffling-the-training-data-to-1/language-modelling-on-penn-treebank-word)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word?p=partially-shuffling-the-training-data-to-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/partially-shuffling-the-training-data-to-1/language-modelling-on-wikitext-2)](https://paperswithcode.com/sota/language-modelling-on-wikitext-2?p=partially-shuffling-the-training-data-to-1)`

Partially Shuffling the Training Data to Improve Language Models

arXiv 2019 · Ofir Press ·

Although SGD requires shuffling the training data between epochs, currently none of the word-level language modeling systems do this. Naively shuffling all sentences in the training data would not permit the model to learn inter-sentence dependencies. Here we present a method that partially shuffles the training data between epochs. This method makes each batch random, while keeping most sentence ordering intact. It achieves new state of the art results on word-level language modeling on both the Penn Treebank and WikiText-2 datasets.

PDF Abstract

Code

Add Remove Mark official

ofirpress/PartialShuffle official

Tasks

Add Remove

Language Modelling

Sentence

Sentence Ordering

Datasets

Penn Treebank

WikiText-2

Results from the Paper

Edit

Ranked #15 on Language Modelling on Penn Treebank (Word Level)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-DOC + Partial Shuffle	Validation perplexity	53.79	# 12	Compare
			Test perplexity	52.0	# 15	Compare
			Params	23M	# 19	Compare
Language Modelling	Penn Treebank (Word Level)	AWD-LSTM-MoS + Partial Shuffle	Validation perplexity	55.89	# 15	Compare
			Test perplexity	53.92	# 18	Compare
			Params	22M	# 23	Compare
Language Modelling	WikiText-2	AWD-LSTM-MoS + Partial Shuffle	Validation perplexity	62.38	# 18	Compare
			Test perplexity	59.98	# 25	Compare
			Number of params	35M	# 12	Compare
Language Modelling	WikiText-2	AWD-LSTM-DOC + Partial Shuffle	Validation perplexity	60.16	# 16	Compare
			Test perplexity	57.85	# 23	Compare
			Number of params	37M	# 9	Compare

Methods

Add Remove

SGD

Edit Social Preview

Partially Shuffling the Training Data to Improve Language Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove