3 dataset results for Unsupervised Extractive Summarization AND Texts

arXiv Summarization Dataset

This is a dataset for evaluating summarisation methods for research papers.

10 PAPERS • 3 BENCHMARKS

FacetSum

FacetSum is a faceted summarization dataset for scientific documents. FacetSum has been built on Emerald journal articles, covering a diverse range of domains. Different from traditional document-summary pairs, FacetSum provides multiple summaries, each targeted at specific sections of a long document, including the purpose, method, findings, and value.

3 PAPERS • 1 BENCHMARK

XWikiRef

We provide a new data set XWikiRef for the task of Cross-lingual Multi-document Summarization. This task aims at generating Wikipedia style text in Low Resource languages by taking reference text as input. Overall, the data set contains 8 different languages: bengali (bn), english (en), hindi (hi), marathi (mr), malayalam (ml), odia (or), punjabi (pa) and tamil (ta). It also contains 5 domains: books, films, politicians, sportsman and writers.

1 PAPER • 1 BENCHMARK

Datasets

3 dataset results for Unsupervised Extractive Summarization AND Texts