TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	DocVQA test	Human	ANLS	0.981	# 1
Visual Question Answering (VQA)	DocVQA test	Human	Accuracy	94.36	# 1
Visual Question Answering (VQA)	DocVQA test	BERT_LARGE_SQUAD_DOCVQA_FINETUNED_Baseline	ANLS	0.665	# 29
Visual Question Answering (VQA)	DocVQA test	BERT_LARGE_SQUAD_DOCVQA_FINETUNED_Baseline	Accuracy	55.77	# 2
Visual Question Answering (VQA)	DocVQA val	BERT LARGE Baseline	ANLS	0.655	# 1
Visual Question Answering (VQA)	DocVQA val	BERT LARGE Baseline	Accuracy	54.48	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/docvqa-a-dataset-for-vqa-on-document-images/visual-question-answering-on-docvqa-test)](https://paperswithcode.com/sota/visual-question-answering-on-docvqa-test?p=docvqa-a-dataset-for-vqa-on-document-images)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/docvqa-a-dataset-for-vqa-on-document-images/visual-question-answering-on-docvqa-val)](https://paperswithcode.com/sota/visual-question-answering-on-docvqa-val?p=docvqa-a-dataset-for-vqa-on-document-images)`

DocVQA: A Dataset for VQA on Document Images

1 Jul 2020 · Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar ·

We present a new dataset for Visual Question Answering (VQA) on document images called DocVQA. The dataset consists of 50,000 questions defined on 12,000+ document images. Detailed analysis of the dataset in comparison with similar datasets for VQA and reading comprehension is presented. We report several baseline results by adopting existing VQA and reading comprehension models. Although the existing models perform reasonably well on certain types of questions, there is large performance gap compared to human performance (94.36% accuracy). The models need to improve specifically on questions where understanding structure of the document is crucial. The dataset, code and leaderboard are available at docvqa.org

PDF Abstract

Code

Add Remove Mark official

anisha2102/docvqa

102

mineshmathew/DocVQA

Tasks

Add Remove

Question Answering

Reading Comprehension

Visual Question Answering

Visual Question Answering (VQA)

Datasets

Introduced in the Paper:

DocVQA

Used in the Paper:

Visual Question Answering

Visual Genome

Visual Question Answering v2.0

TextVQA

ST-VQA

DVQA

Results from the Paper

Edit

Ranked #1 on Visual Question Answering (VQA) on DocVQA val

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	DocVQA test	Human	ANLS	0.981	# 1	Compare
Visual Question Answering (VQA)	DocVQA test	Human	Accuracy	94.36	# 1	Compare
Visual Question Answering (VQA)	DocVQA test	BERT_LARGE_SQUAD_DOCVQA_FINETUNED_Baseline	ANLS	0.665	# 29	Compare
Visual Question Answering (VQA)	DocVQA test	BERT_LARGE_SQUAD_DOCVQA_FINETUNED_Baseline	Accuracy	55.77	# 2	Compare
Visual Question Answering (VQA)	DocVQA val	BERT LARGE Baseline	ANLS	0.655	# 1	Compare
Visual Question Answering (VQA)	DocVQA val	BERT LARGE Baseline	Accuracy	54.48	# 1	Compare

Methods

Add Remove

BERT

Edit Social Preview

DocVQA: A Dataset for VQA on Document Images

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove