TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Zero-Shot Video Retrieval	DiDeMo	Clover	text-to-video R@1	29.5	# 16
Zero-Shot Video Retrieval	DiDeMo	Clover	text-to-video R@5	55.2	# 16
Zero-Shot Video Retrieval	DiDeMo	Clover	text-to-video R@10	66.3	# 16
Zero-Shot Video Retrieval	DiDeMo	Clover	text-to-video Median Rank	4	# 3
Video Retrieval	DiDeMo	Clover	text-to-video R@1	50.1	# 23
Video Retrieval	DiDeMo	Clover	text-to-video R@5	76.7	# 22
Video Retrieval	DiDeMo	Clover	text-to-video R@10	85.6	# 16
Video Retrieval	DiDeMo	Clover	text-to-video Median Rank	1	# 1
Zero-Shot Video Retrieval	LSMDC	Clover	text-to-video R@1	14.7	# 11
Zero-Shot Video Retrieval	LSMDC	Clover	text-to-video R@5	29.2	# 10
Zero-Shot Video Retrieval	LSMDC	Clover	text-to-video R@10	38.2	# 10
Zero-Shot Video Retrieval	LSMDC	Clover	text-to-video Median Rank	24	# 1
Video Retrieval	LSMDC	Clover	text-to-video R@1	24.8	# 18
Video Retrieval	LSMDC	Clover	text-to-video R@5	44	# 14
Video Retrieval	LSMDC	Clover	text-to-video R@10	54.5	# 12
Video Retrieval	LSMDC	Clover	text-to-video Median Rank	8	# 6
Video Question Answering	LSMDC-FiB	Clover	Accuracy	54.1	# 1
Video Question Answering	LSMDC-MC	Clover	Accuracy	83.7	# 2
Zero-Shot Video Retrieval	MSR-VTT	Clover	text-to-video R@1	26.4	# 20
Zero-Shot Video Retrieval	MSR-VTT	Clover	text-to-video R@5	49.5	# 19
Zero-Shot Video Retrieval	MSR-VTT	Clover	text-to-video R@10	60	# 18
Zero-Shot Video Retrieval	MSR-VTT	Clover	text-to-video Median Rank	6	# 4
Video Retrieval	MSR-VTT-1kA	Clover	text-to-video R@1	40.5	# 36
Video Retrieval	MSR-VTT-1kA	Clover	text-to-video R@5	69.8	# 34
Video Retrieval	MSR-VTT-1kA	Clover	text-to-video R@10	79.4	# 37
Video Retrieval	MSR-VTT-1kA	Clover	text-to-video Median Rank	2	# 10
Video Question Answering	MSRVTT-MC	Clover	Accuracy	95.2	# 4
Visual Question Answering (VQA)	MSRVTT-QA	Clover	Accuracy	0.441	# 18
Visual Question Answering (VQA)	MSVD-QA	Clover	Accuracy	0.524	# 19
TGIF-Frame	TGIF-QA	Clover	Accuracy	71.6	# 9
TGIF-Action	TGIF-QA	Clover	Accuracy	95	# 4
TGIF-Transition	TGIF-QA	Clover	Accuracy	98.2	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/video-question-answering-on-lsmdc-fib)](https://paperswithcode.com/sota/video-question-answering-on-lsmdc-fib?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/video-question-answering-on-lsmdc-mc)](https://paperswithcode.com/sota/video-question-answering-on-lsmdc-mc?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/video-question-answering-on-msrvtt-mc)](https://paperswithcode.com/sota/video-question-answering-on-msrvtt-mc?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/tgif-action-on-tgif-qa)](https://paperswithcode.com/sota/tgif-action-on-tgif-qa?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/tgif-transition-on-tgif-qa)](https://paperswithcode.com/sota/tgif-transition-on-tgif-qa?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/tgif-frame-on-tgif-qa)](https://paperswithcode.com/sota/tgif-frame-on-tgif-qa?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/zero-shot-video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-lsmdc?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/zero-shot-video-retrieval-on-didemo)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-didemo?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/video-retrieval-on-lsmdc?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/visual-question-answering-on-msrvtt-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msrvtt-qa-1?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/visual-question-answering-on-msvd-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msvd-qa-1?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/zero-shot-video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-msr-vtt?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/video-retrieval-on-didemo)](https://paperswithcode.com/sota/video-retrieval-on-didemo?p=clover-towards-a-unified-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clover-towards-a-unified-video-language/video-retrieval-on-msr-vtt-1ka)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt-1ka?p=clover-towards-a-unified-video-language)`

Clover: Towards A Unified Video-Language Alignment and Fusion Model

CVPR 2023 · Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji ·

Building a universal Video-Language model for solving various video understanding tasks (\emph{e.g.}, text-video retrieval, video question answering) is an open challenge to the machine learning field. Towards this goal, most recent works build the model by stacking uni-modal and cross-modal feature encoders and train it with pair-wise contrastive pre-text tasks. Though offering attractive generality, the resulted models have to compromise between efficiency and performance. They mostly adopt different architectures to deal with different downstream tasks. We find this is because the pair-wise training cannot well \emph{align} and \emph{fuse} features from different modalities. We then introduce \textbf{Clover}\textemdash a Correlated Video-Language pre-training method\textemdash towards a universal Video-Language model for solving multiple video understanding tasks with neither performance nor efficiency compromise. It improves cross-modal feature alignment and fusion via a novel tri-modal alignment pre-training task. Additionally, we propose to enhance the tri-modal alignment via incorporating learning from semantic masked samples and a new pair-wise ranking loss. Clover establishes new state-of-the-arts on multiple downstream tasks, including three retrieval tasks for both zero-shot and fine-tuning settings, and eight video question answering tasks. Codes and pre-trained models will be released at \url{https://github.com/LeeYN-43/Clover}.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

leeyn-43/clover official

Tasks

Add Remove

Language Modelling

Question Answering

Retrieval

Text to Video Retrieval

TGIF-Action

TGIF-Frame

TGIF-Transition

Video Question Answering

Video Retrieval

Video Understanding

Visual Question Answering (VQA)

Zero-Shot Video Retrieval

Datasets

MSR-VTT

DiDeMo

WebVid

LSMDC

TGIF-QA MSRVTT-QA MSVD-QA MSRVTT-MC

Results from the Paper

Edit

Ranked #1 on Video Question Answering on LSMDC-FiB

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Zero-Shot Video Retrieval	DiDeMo	Clover	text-to-video R@1	29.5	# 16	Compare
			text-to-video R@5	55.2	# 16	Compare
			text-to-video R@10	66.3	# 16	Compare
			text-to-video Median Rank	4	# 3	Compare
Video Retrieval	DiDeMo	Clover	text-to-video R@1	50.1	# 23	Compare
			text-to-video R@5	76.7	# 22	Compare
			text-to-video R@10	85.6	# 16	Compare
			text-to-video Median Rank	1	# 1	Compare
Zero-Shot Video Retrieval	LSMDC	Clover	text-to-video R@1	14.7	# 11	Compare
			text-to-video R@5	29.2	# 10	Compare
			text-to-video R@10	38.2	# 10	Compare
			text-to-video Median Rank	24	# 1	Compare
Video Retrieval	LSMDC	Clover	text-to-video R@1	24.8	# 18	Compare
			text-to-video R@5	44	# 14	Compare
			text-to-video R@10	54.5	# 12	Compare
			text-to-video Median Rank	8	# 6	Compare
Video Question Answering	LSMDC-FiB	Clover	Accuracy	54.1	# 1	Compare
Video Question Answering	LSMDC-MC	Clover	Accuracy	83.7	# 2	Compare
Zero-Shot Video Retrieval	MSR-VTT	Clover	text-to-video R@1	26.4	# 20	Compare
			text-to-video R@5	49.5	# 19	Compare
			text-to-video R@10	60	# 18	Compare
			text-to-video Median Rank	6	# 4	Compare
Video Retrieval	MSR-VTT-1kA	Clover	text-to-video R@1	40.5	# 36	Compare
			text-to-video R@5	69.8	# 34	Compare
			text-to-video R@10	79.4	# 37	Compare
			text-to-video Median Rank	2	# 10	Compare
Video Question Answering	MSRVTT-MC	Clover	Accuracy	95.2	# 4	Compare
Visual Question Answering (VQA)	MSRVTT-QA	Clover	Accuracy	0.441	# 18	Compare
Visual Question Answering (VQA)	MSVD-QA	Clover	Accuracy	0.524	# 19	Compare
TGIF-Frame	TGIF-QA	Clover	Accuracy	71.6	# 9	Compare
TGIF-Action	TGIF-QA	Clover	Accuracy	95	# 4	Compare
TGIF-Transition	TGIF-QA	Clover	Accuracy	98.2	# 4	Compare

Methods

Add Remove

ALIGN

Edit Social Preview

Clover: Towards A Unified Video-Language Alignment and Fusion Model

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove