TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image-text matching	CommercialAdsDataset	VL-BERT	ADD(S) AUC	86.27	# 5
Referring Expression Comprehension	Talk2Car	VL-Bert (Base)	AP50	63.1	# 9
Visual Question Answering (VQA)	VCR (Q-A) dev	VL-BERTLARGE	Accuracy	75.5	# 1
Visual Question Answering (VQA)	VCR (Q-A) dev	VL-BERTBASE	Accuracy	73.8	# 2
Visual Question Answering (VQA)	VCR (Q-AR) dev	VL-BERTLARGE	Accuracy	58.9	# 1
Visual Question Answering (VQA)	VCR (Q-AR) dev	VL-BERTBASE	Accuracy	55.2	# 2
Visual Question Answering (VQA)	VCR (QA-R) dev	VL-BERTBASE	Accuracy	74.4	# 2
Visual Question Answering (VQA)	VCR (QA-R) dev	VL-BERTLARGE	Accuracy	77.9	# 1
Visual Question Answering (VQA)	VCR (Q-AR) test	VL-BERTLARGE	Accuracy	59.7	# 5
Visual Question Answering (VQA)	VCR (QA-R) test	VL-BERTLARGE	Accuracy	78.4	# 6
Visual Question Answering (VQA)	VCR (Q-A) test	VL-BERTLARGE	Accuracy	75.8	# 7
Visual Question Answering (VQA)	VQA v2 test-dev	VL-BERTBASE	Accuracy	71.16	# 27
Visual Question Answering (VQA)	VQA v2 test-dev	VL-BERTLARGE	Accuracy	71.79	# 24
Visual Question Answering (VQA)	VQA v2 test-std	VL-BERTLARGE	overall	72.2	# 23

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vcr-q-a-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-a-dev?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vcr-q-ar-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-ar-dev?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vcr-qa-r-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-qa-r-dev?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/image-text-matching-on-commercialadsdataset)](https://paperswithcode.com/sota/image-text-matching-on-commercialadsdataset?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vcr-q-ar-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-ar-test?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vcr-qa-r-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-qa-r-test?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vcr-q-a-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-a-test?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/referring-expression-comprehension-on-2)](https://paperswithcode.com/sota/referring-expression-comprehension-on-2?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vqa-v2-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-std?p=vl-bert-pre-training-of-generic-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vl-bert-pre-training-of-generic-visual/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=vl-bert-pre-training-of-generic-visual)`

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

ICLR 2020 · Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai ·

We introduce a new pre-trainable generic representation for visual-linguistic tasks, called Visual-Linguistic BERT (VL-BERT for short). VL-BERT adopts the simple yet powerful Transformer model as the backbone, and extends it to take both visual and linguistic embedded features as input. In it, each element of the input is either of a word from the input sentence, or a region-of-interest (RoI) from the input image. It is designed to fit for most of the visual-linguistic downstream tasks. To better exploit the generic representation, we pre-train VL-BERT on the massive-scale Conceptual Captions dataset, together with text-only corpus. Extensive empirical analysis demonstrates that the pre-training procedure can better align the visual-linguistic clues and benefit the downstream tasks, such as visual commonsense reasoning, visual question answering and referring expression comprehension. It is worth noting that VL-BERT achieved the first place of single model on the leaderboard of the VCR benchmark. Code is released at \url{https://github.com/jackroos/VL-BERT}.

PDF Abstract ICLR 2020 PDF ICLR 2020 Abstract

Code

Add Remove Mark official

jackroos/VL-BERT official

733

ImperialNLP/BertGen

jules-samaran/vl-bert

Tasks

Add Remove

Image-text matching

Language Modelling

Question Answering

Referring Expression

Referring Expression Comprehension

Sentence

Visual Commonsense Reasoning

Visual Question Answering

Visual Question Answering (VQA)

Datasets

ImageNet

MS COCO

Visual Question Answering

Visual Genome

Visual Question Answering v2.0

Conceptual Captions

RefCOCO

VCR

Talk2Car CommercialAdsDataset

Results from the Paper

Edit

Ranked #1 on Visual Question Answering (VQA) on VCR (Q-A) dev

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image-text matching	CommercialAdsDataset	VL-BERT	ADD(S) AUC	86.27	# 5	Compare
Referring Expression Comprehension	Talk2Car	VL-Bert (Base)	AP50	63.1	# 9	Compare
Visual Question Answering (VQA)	VCR (Q-A) dev	VL-BERTLARGE	Accuracy	75.5	# 1	Compare
Visual Question Answering (VQA)	VCR (Q-A) dev	VL-BERTBASE	Accuracy	73.8	# 2	Compare
Visual Question Answering (VQA)	VCR (Q-AR) dev	VL-BERTLARGE	Accuracy	58.9	# 1	Compare
Visual Question Answering (VQA)	VCR (Q-AR) dev	VL-BERTBASE	Accuracy	55.2	# 2	Compare
Visual Question Answering (VQA)	VCR (QA-R) dev	VL-BERTBASE	Accuracy	74.4	# 2	Compare
Visual Question Answering (VQA)	VCR (QA-R) dev	VL-BERTLARGE	Accuracy	77.9	# 1	Compare
Visual Question Answering (VQA)	VCR (Q-AR) test	VL-BERTLARGE	Accuracy	59.7	# 5	Compare
Visual Question Answering (VQA)	VCR (QA-R) test	VL-BERTLARGE	Accuracy	78.4	# 6	Compare
Visual Question Answering (VQA)	VCR (Q-A) test	VL-BERTLARGE	Accuracy	75.8	# 7	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	VL-BERTBASE	Accuracy	71.16	# 27	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	VL-BERTLARGE	Accuracy	71.79	# 24	Compare
Visual Question Answering (VQA)	VQA v2 test-std	VL-BERTLARGE	overall	72.2	# 23	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • Attention Dropout • BERT • BPE • Dense Connections • Dropout • GELU • Label Smoothing • Layer Normalization • Linear Layer • Linear Warmup With Linear Decay • Multi-Head Attention • Position-Wise Feed-Forward Layer • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • VL-BERT • Weight Decay • WordPiece

Edit Social Preview

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove