DUC 2004

The DUC2004 dataset is a dataset for document summarization. Is designed and used for testing only. It consists of 500 news articles, each paired with four human written summaries. Specifically it consists of 50 clusters of Text REtrieval Conference (TREC) documents, from the following collections: AP newswire, 1998-2000; New York Times newswire, 1998-2000; Xinhua News Agency (English version), 1996-2000. Each cluster contained on average 10 documents.

Source: Discrete Optimization for Unsupervised Sentence Summarization with Word-Level Extraction

Homepage

Benchmarks

Add a new result Link an existing benchmark

Task	Dataset Variant	Best Model
Text Summarization	DUC 2004 Task 1	Transformer+WDrop
Multi-Document Summarization	DUC 2004	GCN: Personalized Discourse Graph
Extractive Text Summarization	DUC 2004 Task 1	Abs
Extractive Text Summarization	DUC 2004	Pre-training-meets-Clustering-A-Hybrid-Extractive-Multi-Document-Summarization-Model