TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Aesthetics Quality Assessment	Aesthetic Visual Analysis	OneAlign	SRCC	0.823	# 1
Image Quality Assessment	KonIQ-10k	OneAlign	SRCC	0.941	# 1
Image Quality Assessment	KonIQ-10k	OneAlign	PLCC	0.952	# 1
Video Quality Assessment	LIVE-FB LSVQ	OneAlign	PLCC	0.886	# 3
Video Quality Assessment	LIVE-FB LSVQ	OneAlign + FAST-VQA	PLCC	0.900	# 1
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (VQA)	SROCC	0.71812	# 3
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (VQA)	PLCC	0.71121	# 4
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (VQA)	KLCC	0.58634	# 4
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (VQA)	Type	NR	# 1
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IAA)	SROCC	0.51521	# 36
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IAA)	PLCC	0.50055	# 37
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IAA)	KLCC	0.42211	# 32
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IAA)	Type	NR	# 1
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IQA)	SROCC	0.75088	# 2
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IQA)	PLCC	0.74116	# 2
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IQA)	KLCC	0.61677	# 3
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IQA)	Type	NR	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/q-align-teaching-lmms-for-visual-scoring-via/aesthetics-quality-assessment-on-aesthetic)](https://paperswithcode.com/sota/aesthetics-quality-assessment-on-aesthetic?p=q-align-teaching-lmms-for-visual-scoring-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/q-align-teaching-lmms-for-visual-scoring-via/image-quality-assessment-on-koniq-10k)](https://paperswithcode.com/sota/image-quality-assessment-on-koniq-10k?p=q-align-teaching-lmms-for-visual-scoring-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/q-align-teaching-lmms-for-visual-scoring-via/video-quality-assessment-on-live-fb-lsvq)](https://paperswithcode.com/sota/video-quality-assessment-on-live-fb-lsvq?p=q-align-teaching-lmms-for-visual-scoring-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/q-align-teaching-lmms-for-visual-scoring-via/video-quality-assessment-on-msu-sr-qa-dataset)](https://paperswithcode.com/sota/video-quality-assessment-on-msu-sr-qa-dataset?p=q-align-teaching-lmms-for-visual-scoring-via)`

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

28 Dec 2023 · HaoNing Wu, ZiCheng Zhang, Weixia Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Yixuan Gao, Annan Wang, Erli Zhang, Wenxiu Sun, Qiong Yan, Xiongkuo Min, Guangtao Zhai, Weisi Lin ·

The explosion of visual content available online underscores the requirement for an accurate machine assessor to robustly evaluate scores across diverse types of visual contents. While recent studies have demonstrated the exceptional potentials of large multi-modality models (LMMs) on a wide range of related fields, in this work, we explore how to teach them for visual rating aligned with human opinions. Observing that human raters only learn and judge discrete text-defined levels in subjective studies, we propose to emulate this subjective process and teach LMMs with text-defined rating levels instead of scores. The proposed Q-Align achieves state-of-the-art performance on image quality assessment (IQA), image aesthetic assessment (IAA), as well as video quality assessment (VQA) tasks under the original LMM structure. With the syllabus, we further unify the three tasks into one model, termed the OneAlign. In our experiments, we demonstrate the advantage of the discrete-level-based syllabus over direct-score-based variants for LMMs. Our code and the pre-trained weights are released at https://github.com/Q-Future/Q-Align.

PDF Abstract

Code

Add Remove Mark official

q-future/q-align official

↳ Quickstart in

Spaces

136

Tasks

Add Remove

Aesthetics Quality Assessment

Image Quality Assessment

Video Quality Assessment

Visual Question Answering (VQA)

Datasets

KonIQ-10k SPAQ MSU SR-QA Dataset

LIVE-FB LSVQ Q-Bench

Aesthetic Visual Analysis

Results from the Paper

Add Remove

Ranked #1 on Video Quality Assessment on LIVE-FB LSVQ

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Aesthetics Quality Assessment	Aesthetic Visual Analysis	OneAlign	SRCC	0.823	# 1	Compare
Image Quality Assessment	KonIQ-10k	OneAlign	SRCC	0.941	# 1	Compare
Image Quality Assessment	KonIQ-10k	OneAlign	PLCC	0.952	# 1	Compare
Video Quality Assessment	LIVE-FB LSVQ	OneAlign	PLCC	0.886	# 3	Compare
Video Quality Assessment	LIVE-FB LSVQ	OneAlign + FAST-VQA	PLCC	0.900	# 1	Compare
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (VQA)	SROCC	0.71812	# 3	Compare
			PLCC	0.71121	# 4	Compare
			KLCC	0.58634	# 4	Compare
			Type	NR	# 1	Compare
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IAA)	SROCC	0.51521	# 36	Compare
			PLCC	0.50055	# 37	Compare
			KLCC	0.42211	# 32	Compare
			Type	NR	# 1	Compare
Video Quality Assessment	MSU SR-QA Dataset	Q-Align (IQA)	SROCC	0.75088	# 2	Compare
			PLCC	0.74116	# 2	Compare
			KLCC	0.61677	# 3	Compare
			Type	NR	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove