Billion Word Benchmark

Introduced by Chelba et al. in One Billion Word Benchmark for Measuring Progress in Statistical Language Modeling

The One Billion Word dataset is a dataset for language modeling. The training/held-out data was produced from the WMT 2011 News Crawl data using a combination of Bash shell and Perl scripts.

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Language Modelling	One Billion Word	OmniNetT
	Text Generation	One Billion Word	WGANGP + DGflow

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

huggingface/datasets

18,406

tensorflow/datasets

4,173

Tasks

Text Generation
Language Modelling
Word Embeddings

Similar Datasets

One Billion Word Benchmark

Usage

Billion Word Benchmark

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

One Billion Word Benchmark

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages