TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Document Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-1	48.18	# 1
Document Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-2	19.84	# 13
Document Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-L	45.35	# 1
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-1	48.18	# 2
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-2	19.84	# 25
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-L	45.35	# 2
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken	ROUGE-1	46.71	# 5
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken	ROUGE-2	20.39	# 23
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken	ROUGE-L	43.56	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/universal-evasion-attacks-on-summarization/document-summarization-on-cnn-daily-mail)](https://paperswithcode.com/sota/document-summarization-on-cnn-daily-mail?p=universal-evasion-attacks-on-summarization)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/universal-evasion-attacks-on-summarization/abstractive-text-summarization-on-cnn-daily)](https://paperswithcode.com/sota/abstractive-text-summarization-on-cnn-daily?p=universal-evasion-attacks-on-summarization)`

Universal Evasion Attacks on Summarization Scoring

25 Oct 2022 · Wenchuan Mu, Kwan Hui Lim ·

The automatic scoring of summaries is important as it guides the development of summarizers. Scoring is also complex, as it involves multiple aspects such as fluency, grammar, and even textual entailment with the source text. However, summary scoring has not been considered a machine learning task to study its accuracy and robustness. In this study, we place automatic scoring in the context of regression machine learning tasks and perform evasion attacks to explore its robustness. Attack systems predict a non-summary string from each input, and these non-summary strings achieve competitive scores with good summarizers on the most popular metrics: ROUGE, METEOR, and BERTScore. Attack systems also "outperform" state-of-the-art summarization methods on ROUGE-1 and ROUGE-L, and score the second-highest on METEOR. Furthermore, a BERTScore backdoor is observed: a simple trigger can score higher than any automatic summarization method. The evasion attacks in this work indicate the low robustness of current scoring systems at the system level. We hope that our highlighting of these proposed attacks will facilitate the development of summary scores.

PDF Abstract

Code

Add Remove Mark official

cestwc/universal-evasion official

Tasks

Add Remove

Abstractive Text Summarization

Document Summarization

Natural Language Inference

Datasets

CNN/Daily Mail

Results from the Paper

Edit

Ranked #1 on Document Summarization on CNN / Daily Mail

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Document Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-1	48.18	# 1	Compare
			ROUGE-2	19.84	# 13	Compare
			ROUGE-L	45.35	# 1	Compare
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken (alter)	ROUGE-1	48.18	# 2	Compare
			ROUGE-2	19.84	# 25	Compare
			ROUGE-L	45.35	# 2	Compare
Abstractive Text Summarization	CNN / Daily Mail	Scrambled code + broken	ROUGE-1	46.71	# 5	Compare
			ROUGE-2	20.39	# 23	Compare
			ROUGE-L	43.56	# 5	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Universal Evasion Attacks on Summarization Scoring

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove