Texts

XWikiRef

Introduced by Taunk et al. in XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages

We provide a new data set XWikiRef for the task of Cross-lingual Multi-document Summarization. This task aims at generating Wikipedia style text in Low Resource languages by taking reference text as input. Overall, the data set contains 8 different languages: bengali (bn), english (en), hindi (hi), marathi (mr), malayalam (ml), odia (or), punjabi (pa) and tamil (ta). It also contains 5 domains: books, films, politicians, sportsman and writers.

Data Format

Dataset is publicly available here. Each directory contains language specific data subset having 1 json file per domain. In each file, each line denotes one article. It contains the following set of keys:

Article title
Sections
- section title 1
- section text 1
- list of reference texts 1
- .....
- .....
- .....
- section title n
- section text n
- list of reference texts 1

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

No data loaders found. You can submit your data loader here.

Tasks

Similar Datasets

WikiSum

WikiLingua

MLSUM

Global Voices

XWikiRef

Data Format

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

WikiSum

WikiLingua

MLSUM

Global Voices

Usage

License

Modalities

Languages

XWikiRef

Data Format

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

WikiSum

WikiLingua

MLSUM

Global Voices

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages