Wiki-40B

Introduced by Guo et al. in Wiki-40B: Multilingual Language Model Dataset

A new multilingual language model benchmark that is composed of 40+ languages spanning several scripts and linguistic families containing round 40 billion characters and aimed to accelerate the research of multilingual modeling.

Source: Wiki-40B: Multilingual Language Model Dataset

Homepage

Benchmarks

Add a new result Link an existing benchmark

Task	Dataset Variant	Best Model
Language Modelling	Wiki-40B	FLASH-Quad-8k
Benchmarking	Wiki-40B	OutEffHop-Bert_base
Quantization	Wiki-40B	OutEffHop-Bert_base

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

huggingface/datasets

18,445

tensorflow/datasets

4,188

Tasks

Language Modelling
Quantization
Benchmarking

Similar Datasets

Usage

License

Unknown