TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering	BenchLMM	MiniGPT4-13B	GPT-3.5 score	34.93	# 9
Visual Question Answering (VQA)	InfiMM-Eval	MiniGPT-v2	Overall score	10.43	# 13
Visual Question Answering (VQA)	InfiMM-Eval	MiniGPT-v2	Deductive	11.02	# 12
Visual Question Answering (VQA)	InfiMM-Eval	MiniGPT-v2	Abductive	13.28	# 13
Visual Question Answering (VQA)	InfiMM-Eval	MiniGPT-v2	Analogical	5.69	# 13
Visual Question Answering (VQA)	InfiMM-Eval	MiniGPT-v2	Params	8B	# 1
Visual Question Answering	MM-Vet	MiniGPT-4-14B	GPT-4 score	24.4±0.4	# 89
Visual Question Answering	MM-Vet	MiniGPT-4-14B	Params	14B	# 1
Visual Question Answering	MM-Vet	MiniGPT-4-8B	GPT-4 score	22.1±0.1	# 91
Visual Question Answering	MM-Vet	MiniGPT-4-8B	Params	8B	# 1
Video Question Answering	MVBench	MiniGPT4	Avg.	18.8	# 11

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/minigpt-4-enhancing-vision-language/visual-question-answering-on-benchlmm)](https://paperswithcode.com/sota/visual-question-answering-on-benchlmm?p=minigpt-4-enhancing-vision-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/minigpt-4-enhancing-vision-language/video-question-answering-on-mvbench)](https://paperswithcode.com/sota/video-question-answering-on-mvbench?p=minigpt-4-enhancing-vision-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/minigpt-4-enhancing-vision-language/visual-question-answering-vqa-on-core-mm)](https://paperswithcode.com/sota/visual-question-answering-vqa-on-core-mm?p=minigpt-4-enhancing-vision-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/minigpt-4-enhancing-vision-language/visual-question-answering-on-mm-vet)](https://paperswithcode.com/sota/visual-question-answering-on-mm-vet?p=minigpt-4-enhancing-vision-language)`

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

20 Apr 2023 · Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny ·

The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. However, the technical details behind GPT-4 continue to remain undisclosed. We believe that the enhanced multi-modal generation capabilities of GPT-4 stem from the utilization of sophisticated large language models (LLM). To examine this phenomenon, we present MiniGPT-4, which aligns a frozen visual encoder with a frozen advanced LLM, Vicuna, using one projection layer. Our work, for the first time, uncovers that properly aligning the visual features with an advanced large language model can possess numerous advanced multi-modal abilities demonstrated by GPT-4, such as detailed image description generation and website creation from hand-drawn drafts. Furthermore, we also observe other emerging capabilities in MiniGPT-4, including writing stories and poems inspired by given images, teaching users how to cook based on food photos, and so on. In our experiment, we found that the model trained on short image caption pairs could produce unnatural language outputs (e.g., repetition and fragmentation). To address this problem, we curate a detailed image description dataset in the second stage to finetune the model, which consequently improves the model's generation reliability and overall usability. Our code, pre-trained model, and collected dataset are available at https://minigpt-4.github.io/.

PDF Abstract

Code

Add Remove Mark official

vision-cair/minigpt-4 official

↳ Quickstart in

Colab

Spaces

24,905

2024-MindSpore-1/Code6

2023-MindSpore-1/ms-code-16

2024-MindSpore-1/Code5

2023-MindSpore-1/ms-code-224

Tasks

Add Remove

Language Modelling

Large Language Model

Video Question Answering

Visual Question Answering

Visual Question Answering (VQA)

Visual Reasoning

Datasets

GQA

Conceptual Captions

LAION-400M

A-OKVQA

MM-Vet

SBU

Localized Narratives

InfiMM-Eval MVBench

BenchLMM

Results from the Paper

Edit

Ranked #9 on Visual Question Answering on BenchLMM

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering	BenchLMM	MiniGPT4-13B	GPT-3.5 score	34.93	# 9	Compare
Visual Question Answering (VQA)	InfiMM-Eval	MiniGPT-v2	Overall score	10.43	# 13	Compare
			Deductive	11.02	# 12	Compare
			Abductive	13.28	# 13	Compare
			Analogical	5.69	# 13	Compare
			Params	8B	# 1	Compare
Visual Question Answering	MM-Vet	MiniGPT-4-14B	GPT-4 score	24.4±0.4	# 89	Compare
Visual Question Answering	MM-Vet	MiniGPT-4-14B	Params	14B	# 1	Compare
Visual Question Answering	MM-Vet	MiniGPT-4-8B	GPT-4 score	22.1±0.1	# 91	Compare
Visual Question Answering	MM-Vet	MiniGPT-4-8B	Params	8B	# 1	Compare
Video Question Answering	MVBench	MiniGPT4	Avg.	18.8	# 11	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • GPT-4 • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove