TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - OK-VQA	MC Accuracy	34.1	# 11
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - OK-VQA	DA VQA Score	9.2	# 13
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - VQA	MC Accuracy	42.1	# 7
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - VQA	DA VQA Score	12.0	# 12
Visual Question Answering (VQA)	A-OKVQA	ViLBERT	MC Accuracy	41.5	# 9
Visual Question Answering (VQA)	A-OKVQA	ViLBERT	DA VQA Score	25.9	# 9
Referring Expression Comprehension	Talk2Car	Vilbert (Base)	AP50	68.9	# 5
Visual Question Answering (VQA)	VQA v2 test-dev	ViLBERT	Accuracy	70.55	# 30

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vilbert-pretraining-task-agnostic/referring-expression-comprehension-on-2)](https://paperswithcode.com/sota/referring-expression-comprehension-on-2?p=vilbert-pretraining-task-agnostic)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vilbert-pretraining-task-agnostic/visual-question-answering-on-a-okvqa)](https://paperswithcode.com/sota/visual-question-answering-on-a-okvqa?p=vilbert-pretraining-task-agnostic)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vilbert-pretraining-task-agnostic/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=vilbert-pretraining-task-agnostic)`

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

NeurIPS 2019 · Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee ·

We present ViLBERT (short for Vision-and-Language BERT), a model for learning task-agnostic joint representations of image content and natural language. We extend the popular BERT architecture to a multi-modal two-stream model, pro-cessing both visual and textual inputs in separate streams that interact through co-attentional transformer layers. We pretrain our model through two proxy tasks on the large, automatically collected Conceptual Captions dataset and then transfer it to multiple established vision-and-language tasks -- visual question answering, visual commonsense reasoning, referring expressions, and caption-based image retrieval -- by making only minor additions to the base architecture. We observe significant improvements across tasks compared to existing task-specific models -- achieving state-of-the-art on all four tasks. Our work represents a shift away from learning groundings between vision and language only as part of task training and towards treating visual grounding as a pretrainable and transferable capability.

PDF Abstract NeurIPS 2019 PDF NeurIPS 2019 Abstract

Code

Add Remove Mark official

facebookresearch/vilbert-multi-task

791

allenai/allennlp-models

513

jiasenlu/vilbert_beta

468

vmurahari3/visdial-bert

hwanheelee1993/vilbertscore

See all 11 implementations

Tasks

Add Remove

Image Retrieval

Question Answering

Referring Expression Comprehension

Retrieval

Visual Commonsense Reasoning

Visual Grounding

Visual Question Answering

Visual Question Answering (VQA)

Visual Reasoning

Datasets

Visual Question Answering

Flickr30k

Visual Question Answering v2.0

Conceptual Captions

RefCOCO

VCR

A-OKVQA

Talk2Car

Results from the Paper

Add Remove

Ranked #5 on Referring Expression Comprehension on Talk2Car

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - OK-VQA	MC Accuracy	34.1	# 11	Compare
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - OK-VQA	DA VQA Score	9.2	# 13	Compare
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - VQA	MC Accuracy	42.1	# 7	Compare
Visual Question Answering (VQA)	A-OKVQA	ViLBERT - VQA	DA VQA Score	12.0	# 12	Compare
Visual Question Answering (VQA)	A-OKVQA	ViLBERT	MC Accuracy	41.5	# 9	Compare
Visual Question Answering (VQA)	A-OKVQA	ViLBERT	DA VQA Score	25.9	# 9	Compare
Referring Expression Comprehension	Talk2Car	Vilbert (Base)	AP50	68.9	# 5	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	ViLBERT	Accuracy	70.55	# 30	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • Attention Dropout • BERT • BPE • Dense Connections • Dropout • GELU • Label Smoothing • Layer Normalization • Linear Layer • Linear Warmup With Linear Decay • Multi-Head Attention • Position-Wise Feed-Forward Layer • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • ViLBERT • Weight Decay • WordPiece

Edit Social Preview

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove