TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Entity Linking	KILT: AIDA-YAGO2	T5-base	KILT-AC	74.05	# 5
Entity Linking	KILT: AIDA-YAGO2	T5-base	R-Prec	74.05	# 6
Entity Linking	KILT: AIDA-YAGO2	T5-base	Recall@5	74.05	# 7
Entity Linking	KILT: AIDA-YAGO2	T5-base	Accuracy	74.05	# 6
Question Answering	KILT: ELI5	RAG	Rouge-L	14.05	# 7
Question Answering	KILT: ELI5	RAG	F1	14.51	# 6
Question Answering	KILT: ELI5	BART+DPR	Rouge-L	17.41	# 6
Question Answering	KILT: ELI5	BART+DPR	F1	17.88	# 4
Question Answering	KILT: ELI5	T5-base	Rouge-L	19.08	# 5
Question Answering	KILT: ELI5	T5-base	F1	16.1	# 5
Open-Domain Question Answering	KILT: ELI5	T5-base	KILT-RL	0.0	# 6
Open-Domain Question Answering	KILT: ELI5	T5-base	R-Prec	0.0	# 10
Open-Domain Question Answering	KILT: ELI5	T5-base	Recall@5	0.0	# 10
Open-Domain Question Answering	KILT: ELI5	T5-base	ROUGE-L	19.08	# 4
Open-Domain Question Answering	KILT: ELI5	T5-base	F1	16.1	# 8
Open-Domain Question Answering	KILT: ELI5	T5-base	KILT-F1	0.0	# 6
Fact Verification	KILT: FEVER	T5-base	KILT-AC	0.0	# 10
Fact Verification	KILT: FEVER	T5-base	R-Prec	0.0	# 14
Fact Verification	KILT: FEVER	T5-base	Recall@5	0.0	# 14
Fact Verification	KILT: FEVER	T5-base	Accuracy	76.3	# 11
Fact Verification	KILT: FEVER	RAG	KILT-AC	53.45	# 7
Fact Verification	KILT: FEVER	RAG	R-Prec	61.94	# 11
Fact Verification	KILT: FEVER	RAG	Recall@5	75.55	# 10
Fact Verification	KILT: FEVER	RAG	Accuracy	86.31	# 8
Open-Domain Question Answering	KILT: HotpotQA	T5-base	KILT-EM	0.0	# 7
Open-Domain Question Answering	KILT: HotpotQA	T5-base	R-Prec	0.0	# 11
Open-Domain Question Answering	KILT: HotpotQA	T5-base	Recall@5	0.0	# 11
Open-Domain Question Answering	KILT: HotpotQA	T5-base	EM	12.64	# 8
Open-Domain Question Answering	KILT: HotpotQA	T5-base	F1	19.57	# 8
Open-Domain Question Answering	KILT: HotpotQA	T5-base	KILT-F1	0.0	# 7
Open-Domain Question Answering	KILT: Natural Questions	T5-base	KILT-EM	0.0	# 9
Open-Domain Question Answering	KILT: Natural Questions	T5-base	R-Prec	0.0	# 13
Open-Domain Question Answering	KILT: Natural Questions	T5-base	Recall@5	0.0	# 13
Open-Domain Question Answering	KILT: Natural Questions	T5-base	EM	19.6	# 11
Open-Domain Question Answering	KILT: Natural Questions	T5-base	F1	27.73	# 11
Open-Domain Question Answering	KILT: Natural Questions	T5-base	KILT-F1	0.0	# 9
Slot Filling	KILT: T-REx	T5-base	KILT-AC	0.0	# 13
Slot Filling	KILT: T-REx	T5-base	R-Prec	0.0	# 16
Slot Filling	KILT: T-REx	T5-base	Recall@5	0.0	# 16
Slot Filling	KILT: T-REx	T5-base	Accuracy	43.56	# 14
Slot Filling	KILT: T-REx	T5-base	F1	50.61	# 13
Slot Filling	KILT: T-REx	T5-base	KILT-F1	0.0	# 13
Open-Domain Question Answering	KILT: TriviaQA	T5-base	KILT-EM	0.0	# 9
Open-Domain Question Answering	KILT: TriviaQA	T5-base	R-Prec	0.0	# 13
Open-Domain Question Answering	KILT: TriviaQA	T5-base	Recall@5	0.0	# 13
Open-Domain Question Answering	KILT: TriviaQA	T5-base	EM	18.11	# 11
Open-Domain Question Answering	KILT: TriviaQA	T5-base	F1	27.83	# 11
Open-Domain Question Answering	KILT: TriviaQA	T5-base	KILT-F1	0.0	# 9
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	KILT-RL	0.0	# 12
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	R-Prec	0.0	# 16
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	Recall@5	0.0	# 16
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	ROUGE-L	12.4	# 12
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	F1	13.53	# 12
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	KILT-F1	0.0	# 12
Entity Linking	KILT: WNED-CWEB	T5-base	KILT-AC	49.29	# 3
Entity Linking	KILT: WNED-CWEB	T5-base	R-Prec	49.29	# 4
Entity Linking	KILT: WNED-CWEB	T5-base	Recall@5	49.29	# 5
Entity Linking	KILT: WNED-CWEB	T5-base	Accuracy	49.29	# 3
Entity Linking	KILT: WNED-WIKI	T5-base	KILT-AC	47.13	# 4
Entity Linking	KILT: WNED-WIKI	T5-base	R-Prec	47.13	# 6
Entity Linking	KILT: WNED-WIKI	T5-base	Recall@5	47.13	# 6
Entity Linking	KILT: WNED-WIKI	T5-base	Accuracy	47.13	# 4
Slot Filling	KILT: Zero Shot RE	T5-base	KILT-AC	0.0	# 13
Slot Filling	KILT: Zero Shot RE	T5-base	R-Prec	0.0	# 17
Slot Filling	KILT: Zero Shot RE	T5-base	Recall@5	0.0	# 17
Slot Filling	KILT: Zero Shot RE	T5-base	Accuracy	9.02	# 15
Slot Filling	KILT: Zero Shot RE	T5-base	F1	13.52	# 15
Slot Filling	KILT: Zero Shot RE	T5-base	KILT-F1	0.0	# 14

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/entity-linking-on-kilt-wned-cweb)](https://paperswithcode.com/sota/entity-linking-on-kilt-wned-cweb?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/entity-linking-on-kilt-wned-wiki)](https://paperswithcode.com/sota/entity-linking-on-kilt-wned-wiki?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/entity-linking-on-kilt-aida-yago2)](https://paperswithcode.com/sota/entity-linking-on-kilt-aida-yago2?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/question-answering-on-kilt-eli5)](https://paperswithcode.com/sota/question-answering-on-kilt-eli5?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/open-domain-question-answering-on-kilt-eli5)](https://paperswithcode.com/sota/open-domain-question-answering-on-kilt-eli5?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/fact-verification-on-kilt-fever)](https://paperswithcode.com/sota/fact-verification-on-kilt-fever?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/open-domain-question-answering-on-kilt-1)](https://paperswithcode.com/sota/open-domain-question-answering-on-kilt-1?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/open-domain-question-answering-on-kilt)](https://paperswithcode.com/sota/open-domain-question-answering-on-kilt?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/open-domain-question-answering-on-kilt-2)](https://paperswithcode.com/sota/open-domain-question-answering-on-kilt-2?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/open-domain-dialog-on-kilt-wizard-of)](https://paperswithcode.com/sota/open-domain-dialog-on-kilt-wizard-of?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/slot-filling-on-kilt-t-rex)](https://paperswithcode.com/sota/slot-filling-on-kilt-t-rex?p=kilt-a-benchmark-for-knowledge-intensive)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/kilt-a-benchmark-for-knowledge-intensive/slot-filling-on-kilt-zero-shot-re)](https://paperswithcode.com/sota/slot-filling-on-kilt-zero-shot-re?p=kilt-a-benchmark-for-knowledge-intensive)`

KILT: a Benchmark for Knowledge Intensive Language Tasks

NAACL 2021 · Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vladimir Karpukhin, Jean Maillard, Vassilis Plachouras, Tim Rocktäschel, Sebastian Riedel ·

Challenging problems such as open-domain question answering, fact checking, slot filling and entity linking require access to large, external knowledge sources. While some models do well on individual tasks, developing general models is difficult as each task might require computationally expensive indexing of custom knowledge sources, in addition to dedicated infrastructure. To catalyze research on models that condition on specific information in large textual resources, we present a benchmark for knowledge-intensive language tasks (KILT). All tasks in KILT are grounded in the same snapshot of Wikipedia, reducing engineering turnaround through the re-use of components, as well as accelerating research into task-agnostic memory architectures. We test both task-specific and general baselines, evaluating downstream performance in addition to the ability of the models to provide provenance. We find that a shared dense vector index coupled with a seq2seq model is a strong baseline, outperforming more tailor-made approaches for fact checking, open-domain question answering and dialogue, and yielding competitive results on entity linking and slot filling, by generating disambiguated text. KILT data and code are available at https://github.com/facebookresearch/KILT.

PDF Abstract NAACL 2021 PDF NAACL 2021 Abstract

Code

Add Remove Mark official

facebookresearch/KILT official

884

facebookresearch/editeval

138

zouharvi/kb-shrink

Tasks

Add Remove

Entity Linking

Fact Checking

Fact Verification

Open-Domain Dialog

Open-Domain Question Answering

Question Answering

Slot Filling

Datasets

Introduced in the Paper:

KILT

Used in the Paper:

Natural Questions

TriviaQA

HotpotQA

FEVER

Wizard of Wikipedia

ELI5 T-REx

AIDA CoNLL-YAGO

Results from the Paper

Add Remove

Ranked #3 on Entity Linking on KILT: WNED-CWEB

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Entity Linking	KILT: AIDA-YAGO2	T5-base	KILT-AC	74.05	# 5	Compare
			R-Prec	74.05	# 6	Compare
			Recall@5	74.05	# 7	Compare
			Accuracy	74.05	# 6	Compare
Question Answering	KILT: ELI5	RAG	Rouge-L	14.05	# 7	Compare
Question Answering	KILT: ELI5	RAG	F1	14.51	# 6	Compare
Question Answering	KILT: ELI5	BART+DPR	Rouge-L	17.41	# 6	Compare
Question Answering	KILT: ELI5	BART+DPR	F1	17.88	# 4	Compare
Question Answering	KILT: ELI5	T5-base	Rouge-L	19.08	# 5	Compare
Question Answering	KILT: ELI5	T5-base	F1	16.1	# 5	Compare
Open-Domain Question Answering	KILT: ELI5	T5-base	KILT-RL	0.0	# 6	Compare
			R-Prec	0.0	# 10	Compare
			Recall@5	0.0	# 10	Compare
			ROUGE-L	19.08	# 4	Compare
			F1	16.1	# 8	Compare
			KILT-F1	0.0	# 6	Compare
Fact Verification	KILT: FEVER	T5-base	KILT-AC	0.0	# 10	Compare
			R-Prec	0.0	# 14	Compare
			Recall@5	0.0	# 14	Compare
			Accuracy	76.3	# 11	Compare
Fact Verification	KILT: FEVER	RAG	KILT-AC	53.45	# 7	Compare
			R-Prec	61.94	# 11	Compare
			Recall@5	75.55	# 10	Compare
			Accuracy	86.31	# 8	Compare
Open-Domain Question Answering	KILT: HotpotQA	T5-base	KILT-EM	0.0	# 7	Compare
			R-Prec	0.0	# 11	Compare
			Recall@5	0.0	# 11	Compare
			EM	12.64	# 8	Compare
			F1	19.57	# 8	Compare
			KILT-F1	0.0	# 7	Compare
Open-Domain Question Answering	KILT: Natural Questions	T5-base	KILT-EM	0.0	# 9	Compare
			R-Prec	0.0	# 13	Compare
			Recall@5	0.0	# 13	Compare
			EM	19.6	# 11	Compare
			F1	27.73	# 11	Compare
			KILT-F1	0.0	# 9	Compare
Slot Filling	KILT: T-REx	T5-base	KILT-AC	0.0	# 13	Compare
			R-Prec	0.0	# 16	Compare
			Recall@5	0.0	# 16	Compare
			Accuracy	43.56	# 14	Compare
			F1	50.61	# 13	Compare
			KILT-F1	0.0	# 13	Compare
Open-Domain Question Answering	KILT: TriviaQA	T5-base	KILT-EM	0.0	# 9	Compare
			R-Prec	0.0	# 13	Compare
			Recall@5	0.0	# 13	Compare
			EM	18.11	# 11	Compare
			F1	27.83	# 11	Compare
			KILT-F1	0.0	# 9	Compare
Open-Domain Dialog	KILT: Wizard of Wikipedia	T5-base	KILT-RL	0.0	# 12	Compare
			R-Prec	0.0	# 16	Compare
			Recall@5	0.0	# 16	Compare
			ROUGE-L	12.4	# 12	Compare
			F1	13.53	# 12	Compare
			KILT-F1	0.0	# 12	Compare
Entity Linking	KILT: WNED-CWEB	T5-base	KILT-AC	49.29	# 3	Compare
			R-Prec	49.29	# 4	Compare
			Recall@5	49.29	# 5	Compare
			Accuracy	49.29	# 3	Compare
Entity Linking	KILT: WNED-WIKI	T5-base	KILT-AC	47.13	# 4	Compare
			R-Prec	47.13	# 6	Compare
			Recall@5	47.13	# 6	Compare
			Accuracy	47.13	# 4	Compare
Slot Filling	KILT: Zero Shot RE	T5-base	KILT-AC	0.0	# 13	Compare
			R-Prec	0.0	# 17	Compare
			Recall@5	0.0	# 17	Compare
			Accuracy	9.02	# 15	Compare
			F1	13.52	# 15	Compare
			KILT-F1	0.0	# 14	Compare

Methods

Add Remove

LSTM • Seq2Seq • Sigmoid Activation • Tanh Activation

Edit Social Preview

KILT: a Benchmark for Knowledge Intensive Language Tasks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove