TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	InfiMM-Eval	Emu	Overall score	28.24	# 7
Visual Question Answering (VQA)	InfiMM-Eval	Emu	Deductive	28.9	# 6
Visual Question Answering (VQA)	InfiMM-Eval	Emu	Abductive	36.57	# 8
Visual Question Answering (VQA)	InfiMM-Eval	Emu	Analogical	18.19	# 9
Visual Question Answering (VQA)	InfiMM-Eval	Emu	Params	14B	# 1
Visual Question Answering	MM-Vet	Emu-14B	GPT-4 score	36.3±0.3	# 52
Visual Question Answering	MM-Vet	Emu-14B	Params	14B	# 1
Visual Question Answering	MM-Vet (w/o External Tools)	Emu-14B	GPT-4 score	36.3±0.3	# 1
Temporal/Casual QA	NExT-QA	Emu(0-shot)	WUPS	23.4	# 8
Visual Question Answering	VizWiz	Emu-I *	Accuracy	38.1	# 1
Visual Question Answering	VQA v2	Emu-I *	Accuracy	57.5	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/generative-pretraining-in-multimodality/visual-question-answering-on-mm-vet-w-o)](https://paperswithcode.com/sota/visual-question-answering-on-mm-vet-w-o?p=generative-pretraining-in-multimodality)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/generative-pretraining-in-multimodality/visual-question-answering-on-vizwiz-1)](https://paperswithcode.com/sota/visual-question-answering-on-vizwiz-1?p=generative-pretraining-in-multimodality)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/generative-pretraining-in-multimodality/visual-question-answering-on-vqa-v2-1)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-1?p=generative-pretraining-in-multimodality)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/generative-pretraining-in-multimodality/visual-question-answering-vqa-on-core-mm)](https://paperswithcode.com/sota/visual-question-answering-vqa-on-core-mm?p=generative-pretraining-in-multimodality)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/generative-pretraining-in-multimodality/temporal-casual-qa-on-next-qa)](https://paperswithcode.com/sota/temporal-casual-qa-on-next-qa?p=generative-pretraining-in-multimodality)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/generative-pretraining-in-multimodality/visual-question-answering-on-mm-vet)](https://paperswithcode.com/sota/visual-question-answering-on-mm-vet?p=generative-pretraining-in-multimodality)`

Generative Pretraining in Multimodality

11 Jul 2023 · Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang ·

We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context. This omnivore model can take in any single-modality or multimodal data input indiscriminately (e.g., interleaved image, text and video) through a one-model-for-all autoregressive training process. First, visual signals are encoded into embeddings, and together with text tokens form an interleaved input sequence. Emu is then end-to-end trained with a unified objective of classifying the next text token or regressing the next visual embedding in the multimodal sequence. This versatile multimodality empowers the exploration of diverse pretraining data sources at scale, such as videos with interleaved frames and text, webpages with interleaved images and text, as well as web-scale image-text pairs and video-text pairs. Emu can serve as a generalist multimodal interface for both image-to-text and text-to-image tasks, and supports in-context image and text generation. Across a broad range of zero-shot/few-shot tasks including image captioning, visual question answering, video question answering and text-to-image generation, Emu demonstrates superb performance compared to state-of-the-art large multimodal models. Extended capabilities such as multimodal assistants via instruction tuning are also demonstrated with impressive performance.

PDF Abstract

Code

Add Remove Mark official

baaivision/emu official

1,496

doc-doc/NExT-OE

Tasks

Add Remove

Image Captioning

Image Generation

Question Answering

Temporal/Casual QA

Text Generation

Text-to-Image Generation

Video Question Answering

Visual Question Answering

Visual Question Answering (VQA)

Datasets

MS COCO

Visual Question Answering v2.0

OK-VQA

WebVid

VisDial

VizWiz

MM-Vet

NExT-QA

InfiMM-Eval

MMC4

Results from the Paper

Edit

Ranked #1 on Visual Question Answering on VQA v2

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	InfiMM-Eval	Emu	Overall score	28.24	# 7	Compare
			Deductive	28.9	# 6	Compare
			Abductive	36.57	# 8	Compare
			Analogical	18.19	# 9	Compare
			Params	14B	# 1	Compare
Visual Question Answering	MM-Vet	Emu-14B	GPT-4 score	36.3±0.3	# 52	Compare
Visual Question Answering	MM-Vet	Emu-14B	Params	14B	# 1	Compare
Visual Question Answering	MM-Vet (w/o External Tools)	Emu-14B	GPT-4 score	36.3±0.3	# 1	Compare
Temporal/Casual QA	NExT-QA	Emu(0-shot)	WUPS	23.4	# 8	Compare
Visual Question Answering	VizWiz	Emu-I *	Accuracy	38.1	# 1	Compare
Visual Question Answering	VQA v2	Emu-I *	Accuracy	57.5	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Generative Pretraining in Multimodality

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove