TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	GQA test-dev	Lyrics	Accuracy	62.4	# 4
Image Captioning	MS COCO	Lyrics	CIDEr	121.1	# 5
Image Captioning	nocaps entire	Lyrics	CIDEr	126.8	# 1
Visual Question Answering (VQA)	OK-VQA	Lyrics	Accuracy	58.2	# 10
Referring Expression Comprehension	RefCOCO	Lyrics	Val	90.69	# 5
Referring Expression Comprehension	RefCOCO	Lyrics	Test A	92.08	# 5
Referring Expression Comprehension	RefCOCO	Lyrics	Test B	86.03	# 5
Referring Expression Comprehension	RefCOCOg-test	Lyrics	Accuracy	88.26	# 4
Referring Expression Comprehension	RefCOCOg-val	Lyrics	Accuracy	87.23	# 4
Visual Question Answering (VQA)	VQA v2 test-dev	Lyrics	Accuracy	81.2	# 8

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/image-captioning-on-nocaps-entire)](https://paperswithcode.com/sota/image-captioning-on-nocaps-entire?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/visual-question-answering-on-gqa-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-gqa-test-dev?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/referring-expression-comprehension-on-1)](https://paperswithcode.com/sota/referring-expression-comprehension-on-1?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/referring-expression-comprehension-on)](https://paperswithcode.com/sota/referring-expression-comprehension-on?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/image-captioning-on-coco)](https://paperswithcode.com/sota/image-captioning-on-coco?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/referring-expression-comprehension-on-refcoco)](https://paperswithcode.com/sota/referring-expression-comprehension-on-refcoco?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=lyrics-boosting-fine-grained-language-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lyrics-boosting-fine-grained-language-vision/visual-question-answering-on-ok-vqa)](https://paperswithcode.com/sota/visual-question-answering-on-ok-vqa?p=lyrics-boosting-fine-grained-language-vision)`

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects

8 Dec 2023 · Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, BingYi Jing, Pingjian Zhang ·

Large Vision Language Models (LVLMs) have demonstrated impressive zero-shot capabilities in various vision-language dialogue scenarios. However, the absence of fine-grained visual object detection hinders the model from understanding the details of images, leading to irreparable visual hallucinations and factual errors. In this paper, we propose Lyrics, a novel multi-modal pre-training and instruction fine-tuning paradigm that bootstraps vision-language alignment from fine-grained cross-modal collaboration. Building on the foundation of BLIP-2, Lyrics infuses local visual features extracted from a visual refiner that includes image tagging, object detection and semantic segmentation modules into the Querying Transformer, while on the text side, the language inputs equip the boundary boxes and tags derived from the visual refiner. We further introduce a two-stage training scheme, in which the pre-training stage bridges the modality gap through explicit and comprehensive vision-language alignment targets. During the instruction fine-tuning stage, we introduce semantic-aware visual feature extraction, a crucial method that enables the model to extract informative features from concrete visual objects. Our approach achieves robust performance on 13 datasets across various vision-language tasks, and demonstrates promising multi-modal understanding, perception and conversation capabilities in 11 scenario-based benchmark toolkits.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Image Captioning

object-detection

Object Detection

Referring Expression Comprehension

Referring Expression Segmentation

Semantic Segmentation

Visual Question Answering (VQA)

Datasets

MS COCO

Visual Question Answering

GQA

Visual Question Answering v2.0

RefCOCO

OK-VQA

NoCaps

ScienceQA

VizWiz

MM-Vet LLaVA-Bench ShareGPT4V Google Refexp

MathVista Q-Bench

Results from the Paper

Edit

Ranked #1 on Image Captioning on nocaps entire

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	GQA test-dev	Lyrics	Accuracy	62.4	# 4	Compare
Image Captioning	MS COCO	Lyrics	CIDEr	121.1	# 5	Compare
Image Captioning	nocaps entire	Lyrics	CIDEr	126.8	# 1	Compare
Visual Question Answering (VQA)	OK-VQA	Lyrics	Accuracy	58.2	# 10	Compare
Referring Expression Comprehension	RefCOCO	Lyrics	Val	90.69	# 5	Compare
			Test A	92.08	# 5	Compare
			Test B	86.03	# 5	Compare
Referring Expression Comprehension	RefCOCOg-test	Lyrics	Accuracy	88.26	# 4	Compare
Referring Expression Comprehension	RefCOCOg-val	Lyrics	Accuracy	87.23	# 4	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	Lyrics	Accuracy	81.2	# 8	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove