TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Cross-Modal Retrieval	COCO 2014	Oscar	Image-to-text R@1	73.5	# 17
Cross-Modal Retrieval	COCO 2014	Oscar	Image-to-text R@10	96.0	# 16
Cross-Modal Retrieval	COCO 2014	Oscar	Image-to-text R@5	92.2	# 17
Cross-Modal Retrieval	COCO 2014	Oscar	Text-to-image R@1	57.5	# 19
Cross-Modal Retrieval	COCO 2014	Oscar	Text-to-image R@10	89.8	# 16
Cross-Modal Retrieval	COCO 2014	Oscar	Text-to-image R@5	82.8	# 18
Image Captioning	COCO Captions	Oscar	BLEU-4	41.7	# 11
Image Captioning	COCO Captions	Oscar	METEOR	30.6	# 11
Image Captioning	COCO Captions	Oscar	CIDER	140	# 18
Image Captioning	COCO Captions	Oscar	SPICE	24.5	# 12
Image-text matching	CommercialAdsDataset	OSCAR	ADD(S) AUC	87.45	# 4
Image-to-Text Retrieval	MS COCO	Oscar	Recall@10	99.8	# 1
Image Retrieval	MS COCO	Oscar	Recall@10	98.3	# 1
Image Captioning	nocaps-val-overall	OSCAR	CIDEr	80.9	# 11
Image Captioning	nocaps-val-overall	OSCAR	SPICE	11.3	# 10
Image Captioning	nocaps-val-overall	OSCAR	Pretrain (#images)	345M	# 11
Visual Question Answering (VQA)	VQA v2 test-dev	Oscar	Accuracy	73.82	# 20

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/image-to-text-retrieval-on-coco)](https://paperswithcode.com/sota/image-to-text-retrieval-on-coco?p=oscar-object-semantics-aligned-pre-training)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/image-retrieval-on-coco)](https://paperswithcode.com/sota/image-retrieval-on-coco?p=oscar-object-semantics-aligned-pre-training)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/image-text-matching-on-commercialadsdataset)](https://paperswithcode.com/sota/image-text-matching-on-commercialadsdataset?p=oscar-object-semantics-aligned-pre-training)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/image-captioning-on-coco-captions)](https://paperswithcode.com/sota/image-captioning-on-coco-captions?p=oscar-object-semantics-aligned-pre-training)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/image-captioning-on-nocaps-val-overall)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-overall?p=oscar-object-semantics-aligned-pre-training)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/cross-modal-retrieval-on-coco-2014)](https://paperswithcode.com/sota/cross-modal-retrieval-on-coco-2014?p=oscar-object-semantics-aligned-pre-training)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/oscar-object-semantics-aligned-pre-training/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=oscar-object-semantics-aligned-pre-training)`

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

ECCV 2020 · Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiao-Wei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao ·

Large-scale pre-training methods of learning cross-modal representations on image-text pairs are becoming popular for vision-language tasks. While existing methods simply concatenate image region features and text features as input to the model to be pre-trained and use self-attention to learn image-text semantic alignments in a brute force manner, in this paper, we propose a new learning method Oscar (Object-Semantics Aligned Pre-training), which uses object tags detected in images as anchor points to significantly ease the learning of alignments. Our method is motivated by the observation that the salient objects in an image can be accurately detected, and are often mentioned in the paired text. We pre-train an Oscar model on the public corpus of 6.5 million text-image pairs, and fine-tune it on downstream tasks, creating new state-of-the-arts on six well-established vision-language understanding and generation tasks.

PDF Abstract ECCV 2020 PDF ECCV 2020 Abstract

Code

Add Remove Mark official

microsoft/Oscar official

1,025

rmokady/clip_prefix_caption

↳ Quickstart in

Colab

Spaces

1,197

milvlg/rosita

ThanThoai/Visual-Question-Answering…

Tasks

Add Remove

Cross-Modal Retrieval

Image Captioning

Image Retrieval

Image-text matching

Image-to-Text Retrieval

Visual Question Answering (VQA)

Datasets

MS COCO

Visual Genome

GQA

Visual Question Answering v2.0

COCO Captions

NoCaps CommercialAdsDataset

Results from the Paper

Edit

Ranked #1 on Image Retrieval on MS COCO (Recall@10 metric)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Cross-Modal Retrieval	COCO 2014	Oscar	Image-to-text R@1	73.5	# 17	Compare
			Image-to-text R@10	96.0	# 16	Compare
			Image-to-text R@5	92.2	# 17	Compare
			Text-to-image R@1	57.5	# 19	Compare
			Text-to-image R@10	89.8	# 16	Compare
			Text-to-image R@5	82.8	# 18	Compare
Image Captioning	COCO Captions	Oscar	BLEU-4	41.7	# 11	Compare
			METEOR	30.6	# 11	Compare
			CIDER	140	# 18	Compare
			SPICE	24.5	# 12	Compare
Image-text matching	CommercialAdsDataset	OSCAR	ADD(S) AUC	87.45	# 4	Compare
Image-to-Text Retrieval	MS COCO	Oscar	Recall@10	99.8	# 1	Compare
Image Retrieval	MS COCO	Oscar	Recall@10	98.3	# 1	Compare
Image Captioning	nocaps-val-overall	OSCAR	CIDEr	80.9	# 11	Compare
			SPICE	11.3	# 10	Compare
			Pretrain (#images)	345M	# 11	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	Oscar	Accuracy	73.82	# 20	Compare

Methods

Add Remove

OSCAR

Edit Social Preview

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove