TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Retrieval	ActivityNet	CLIP4Clip	text-to-video R@1	40.5	# 24
Video Retrieval	ActivityNet	CLIP4Clip	text-to-video R@5	73.4	# 18
Video Retrieval	ActivityNet	CLIP4Clip	text-to-video R@50	98.2	# 1
Video Retrieval	ActivityNet	CLIP4Clip	text-to-video Median Rank	2	# 5
Video Retrieval	ActivityNet	CLIP4Clip	text-to-video Mean Rank	7.5	# 11
Video Retrieval	DiDeMo	CLIP4Clip	text-to-video R@1	43.4	# 33
Video Retrieval	DiDeMo	CLIP4Clip	text-to-video R@5	70.2	# 31
Video Retrieval	DiDeMo	CLIP4Clip	text-to-video R@10	80.6	# 29
Video Retrieval	DiDeMo	CLIP4Clip	text-to-video Median Rank	2.0	# 9
Video Retrieval	DiDeMo	CLIP4Clip	text-to-video Mean Rank	17.5	# 12
Zero-Shot Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@1	15.1	# 10
Zero-Shot Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@5	28.5	# 11
Zero-Shot Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@10	36.4	# 11
Zero-Shot Video Retrieval	LSMDC	CLIP4Clip	text-to-video Median Rank	28	# 2
Zero-Shot Video Retrieval	LSMDC	CLIP4Clip	text-to-video Mean Rank	117	# 1
Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@1	21.6	# 24
Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@5	41.8	# 19
Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@10	49.8	# 19
Video Retrieval	LSMDC	CLIP4Clip	text-to-video Mean Rank	58.0	# 9
Video Retrieval	MSR-VTT	CLIP4Clip-seqTransf	text-to-video R@1	44.5	# 13
Video Retrieval	MSR-VTT	CLIP4Clip-seqTransf	text-to-video R@5	71.4	# 11
Video Retrieval	MSR-VTT	CLIP4Clip-seqTransf	text-to-video R@10	81.6	# 10
Text to Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video R@1	44.5	# 1
Zero-Shot Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video R@1	32.0	# 16
Zero-Shot Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video R@5	57.0	# 14
Zero-Shot Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video R@10	66.9	# 13
Zero-Shot Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video Median Rank	4	# 3
Zero-Shot Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video Mean Rank	34.0	# 2
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	text-to-video Mean Rank	15.3	# 19
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	text-to-video R@10	81.6	# 34
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	text-to-video Median Rank	2	# 10
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	video-to-text R@1	42.7	# 22
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	video-to-text R@5	70.9	# 20
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	video-to-text R@10	80.6	# 21
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	video-to-text Median Rank	2	# 7
Zero-Shot Video Retrieval	MSVD	CLIP4Clip	text-to-video R@1	38.5	# 10
Zero-Shot Video Retrieval	MSVD	CLIP4Clip	text-to-video R@5	66.9	# 10
Zero-Shot Video Retrieval	MSVD	CLIP4Clip	text-to-video R@10	76.8	# 10
Zero-Shot Video Retrieval	MSVD	CLIP4Clip	text-to-video Median Rank	2	# 3
Zero-Shot Video Retrieval	MSVD	CLIP4Clip	text-to-video Mean Rank	17.8	# 1
Video Retrieval	MSVD	CLIP4Clip	text-to-video R@1	46.2	# 19
Video Retrieval	MSVD	CLIP4Clip	text-to-video R@5	76.1	# 16
Video Retrieval	MSVD	CLIP4Clip	text-to-video R@10	84.6	# 15
Video Retrieval	MSVD	CLIP4Clip	text-to-video Median Rank	2	# 8
Video Retrieval	MSVD	CLIP4Clip	text-to-video Mean Rank	10.0	# 12
Video Retrieval	MSVD	CLIP4Clip	video-to-text R@1	62.0	# 12
Video Retrieval	MSVD	CLIP4Clip	video-to-text R@5	87.3	# 10
Video Retrieval	MSVD	CLIP4Clip	video-to-text R@10	92.6	# 10
Video Retrieval	MSVD	CLIP4Clip	video-to-text Median Rank	1	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/text-to-video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/text-to-video-retrieval-on-msr-vtt?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/video-retrieval-on-msr-vtt-1ka)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt-1ka?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/zero-shot-video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-lsmdc?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/zero-shot-video-retrieval-on-msvd)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-msvd?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/zero-shot-video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-msr-vtt?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/video-retrieval-on-msvd)](https://paperswithcode.com/sota/video-retrieval-on-msvd?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/video-retrieval-on-activitynet)](https://paperswithcode.com/sota/video-retrieval-on-activitynet?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/video-retrieval-on-lsmdc?p=clip4clip-an-empirical-study-of-clip-for-end)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4clip-an-empirical-study-of-clip-for-end/video-retrieval-on-didemo)](https://paperswithcode.com/sota/video-retrieval-on-didemo?p=clip4clip-an-empirical-study-of-clip-for-end)`

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

18 Apr 2021 · Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li ·

Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, LSMDC, ActivityNet, and DiDeMo. We release our code at https://github.com/ArrowLuo/CLIP4Clip.

PDF Abstract

Code

Add Remove Mark official

ArrowLuo/CLIP4Clip official

776

towhee-io/towhee

2,986

roudimit/AVLnet

facebookresearch/EgoTV

willard-yuan/video-text-retrieval-p…

Tasks

Add Remove

Retrieval

Text Retrieval

Text to Video Retrieval

Video Retrieval

Video-Text Retrieval

Video Understanding

Zero-Shot Video Retrieval

Datasets

Visual Genome

ActivityNet

MSR-VTT

MSVD

HowTo100M

DiDeMo

COCO Captions

WebVid

LSMDC

Results from the Paper

Edit

Ranked #1 on Text to Video Retrieval on MSR-VTT

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Retrieval	ActivityNet	CLIP4Clip	text-to-video R@1	40.5	# 24	Compare
			text-to-video R@5	73.4	# 18	Compare
			text-to-video R@50	98.2	# 1	Compare
			text-to-video Median Rank	2	# 5	Compare
			text-to-video Mean Rank	7.5	# 11	Compare
Video Retrieval	DiDeMo	CLIP4Clip	text-to-video R@1	43.4	# 33	Compare
			text-to-video R@5	70.2	# 31	Compare
			text-to-video R@10	80.6	# 29	Compare
			text-to-video Median Rank	2.0	# 9	Compare
			text-to-video Mean Rank	17.5	# 12	Compare
Zero-Shot Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@1	15.1	# 10	Compare
			text-to-video R@5	28.5	# 11	Compare
			text-to-video R@10	36.4	# 11	Compare
			text-to-video Median Rank	28	# 2	Compare
			text-to-video Mean Rank	117	# 1	Compare
Video Retrieval	LSMDC	CLIP4Clip	text-to-video R@1	21.6	# 24	Compare
			text-to-video R@5	41.8	# 19	Compare
			text-to-video R@10	49.8	# 19	Compare
			text-to-video Mean Rank	58.0	# 9	Compare
Video Retrieval	MSR-VTT	CLIP4Clip-seqTransf	text-to-video R@1	44.5	# 13	Compare
			text-to-video R@5	71.4	# 11	Compare
			text-to-video R@10	81.6	# 10	Compare
Text to Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video R@1	44.5	# 1	Compare
Zero-Shot Video Retrieval	MSR-VTT	CLIP4Clip	text-to-video R@1	32.0	# 16	Compare
			text-to-video R@5	57.0	# 14	Compare
			text-to-video R@10	66.9	# 13	Compare
			text-to-video Median Rank	4	# 3	Compare
			text-to-video Mean Rank	34.0	# 2	Compare
Video Retrieval	MSR-VTT-1kA	CLIP4Clip	text-to-video Mean Rank	15.3	# 19	Compare
			text-to-video R@10	81.6	# 34	Compare
			text-to-video Median Rank	2	# 10	Compare
			video-to-text R@1	42.7	# 22	Compare
			video-to-text R@5	70.9	# 20	Compare
			video-to-text R@10	80.6	# 21	Compare
			video-to-text Median Rank	2	# 7	Compare
Zero-Shot Video Retrieval	MSVD	CLIP4Clip	text-to-video R@1	38.5	# 10	Compare
			text-to-video R@5	66.9	# 10	Compare
			text-to-video R@10	76.8	# 10	Compare
			text-to-video Median Rank	2	# 3	Compare
			text-to-video Mean Rank	17.8	# 1	Compare
Video Retrieval	MSVD	CLIP4Clip	text-to-video R@1	46.2	# 19	Compare
			text-to-video R@5	76.1	# 16	Compare
			text-to-video R@10	84.6	# 15	Compare
			text-to-video Median Rank	2	# 8	Compare
			text-to-video Mean Rank	10.0	# 12	Compare
			video-to-text R@1	62.0	# 12	Compare
			video-to-text R@5	87.3	# 10	Compare
			video-to-text R@10	92.6	# 10	Compare
			video-to-text Median Rank	1	# 1	Compare

Methods

Add Remove

CLIP

Edit Social Preview

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove