TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Retrieval	ActivityNet	HiTeA	text-to-video R@1	49.7	# 16
Video Retrieval	ActivityNet	HiTeA	text-to-video R@5	77.1	# 13
Video Retrieval	ActivityNet	HiTeA	text-to-video R@10	86.7	# 13
Video Retrieval	DiDeMo	HiTeA	text-to-video R@1	56.5	# 12
Video Retrieval	DiDeMo	HiTeA	text-to-video R@5	81.7	# 9
Video Retrieval	DiDeMo	HiTeA	text-to-video R@10	89.7	# 8
Zero-Shot Video Retrieval	DiDeMo	HiTeA-17M	text-to-video R@1	43.2	# 7
Zero-Shot Video Retrieval	DiDeMo	HiTeA-17M	text-to-video R@5	69.3	# 7
Zero-Shot Video Retrieval	DiDeMo	HiTeA-17M	text-to-video R@10	79.0	# 6
Zero-Shot Video Retrieval	DiDeMo	HiTeA-5M	text-to-video R@1	36.1	# 12
Zero-Shot Video Retrieval	DiDeMo	HiTeA-5M	text-to-video R@5	60.1	# 13
Zero-Shot Video Retrieval	DiDeMo	HiTeA-5M	text-to-video R@10	70.3	# 11
Video Retrieval	LSMDC	HiTeA	text-to-video R@1	28.7	# 12
Video Retrieval	LSMDC	HiTeA	text-to-video R@5	50.3	# 7
Video Retrieval	LSMDC	HiTeA	text-to-video R@10	59.0	# 7
Zero-Shot Video Retrieval	LSMDC	HiTeA-17M	text-to-video R@1	18.3	# 6
Zero-Shot Video Retrieval	LSMDC	HiTeA-17M	text-to-video R@5	36.7	# 5
Zero-Shot Video Retrieval	LSMDC	HiTeA-17M	text-to-video R@10	44.2	# 6
Zero-Shot Video Retrieval	LSMDC	HiTeA-5M	text-to-video R@1	15.5	# 9
Zero-Shot Video Retrieval	LSMDC	HiTeA-5M	text-to-video R@5	31.1	# 9
Zero-Shot Video Retrieval	LSMDC	HiTeA-5M	text-to-video R@10	39.8	# 8
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-17M	text-to-video R@1	34.4	# 14
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-17M	text-to-video R@5	60.0	# 12
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-17M	text-to-video R@10	69.9	# 12
Video Captioning	MSR-VTT	HiTeA	CIDEr	65.1	# 10
Video Captioning	MSR-VTT	HiTeA	METEOR	30.7	# 9
Video Captioning	MSR-VTT	HiTeA	ROUGE-L	65.0	# 7
Video Captioning	MSR-VTT	HiTeA	BLEU-4	49.2	# 9
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-5M	text-to-video R@1	29.9	# 18
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-5M	text-to-video R@5	54.2	# 17
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-5M	text-to-video R@10	62.9	# 17
Video Retrieval	MSR-VTT-1kA	HiTeA	text-to-video R@1	46.8	# 29
Video Retrieval	MSR-VTT-1kA	HiTeA	text-to-video R@5	71.2	# 33
Video Retrieval	MSR-VTT-1kA	HiTeA	text-to-video R@10	81.9	# 32
Video Question Answering	MSRVTT-MC	HiTeA	Accuracy	97.4	# 2
Zero-Shot Learning	MSRVTT-QA	HiTeA	Accuracy	21.7	# 1
Visual Question Answering (VQA)	MSRVTT-QA	HiTeA	Accuracy	0.459	# 12
Video Captioning	MSVD	HiTeA	CIDEr	146.9	# 6
Video Captioning	MSVD	HiTeA	BLEU-4	71.0	# 4
Video Captioning	MSVD	HiTeA	METEOR	45.3	# 4
Video Captioning	MSVD	HiTeA	ROUGE-L	81.4	# 5
Visual Question Answering (VQA)	MSVD-QA	HiTeA	Accuracy	0.556	# 11
Zero-Shot Learning	MSVD-QA	HiTeA	Accuracy	37.4	# 1
Video Question Answering	NExT-QA	HiTeA	Accuracy	63.1	# 11
Video Retrieval	SSv2-label retrieval	HiTeA	text-to-video R@1	55.2	# 3
Video Retrieval	SSv2-label retrieval	HiTeA	text-to-video R@5	89.1	# 3
Video Retrieval	SSv2-label retrieval	HiTeA	text-to-video R@10	81.4	# 4
Video Retrieval	SSv2-template retrieval	HiTeA	text-to-video R@1	85.6	# 3
Video Retrieval	SSv2-template retrieval	HiTeA	text-to-video R@5	100	# 1
Video Retrieval	SSv2-template retrieval	HiTeA	text-to-video R@10	100	# 1
TGIF-Transition	TGIF-QA	HiTeA	Accuracy	98.8	# 3
TGIF-Action	TGIF-QA	HiTeA	Accuracy	97.2	# 2
Visual Question Answering (VQA)	TGIF-QA	HiTeA	Accuracy	0.732	# 1
TGIF-Frame	TGIF-QA	HiTeA	Accuracy	73.2	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/zero-shot-learning-on-msrvtt-qa)](https://paperswithcode.com/sota/zero-shot-learning-on-msrvtt-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/zero-shot-learning-on-msvd-qa)](https://paperswithcode.com/sota/zero-shot-learning-on-msvd-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/visual-question-answering-on-tgif-qa)](https://paperswithcode.com/sota/visual-question-answering-on-tgif-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-question-answering-on-msrvtt-mc)](https://paperswithcode.com/sota/video-question-answering-on-msrvtt-mc?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/tgif-action-on-tgif-qa)](https://paperswithcode.com/sota/tgif-action-on-tgif-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-retrieval-on-ssv2-label-retrieval)](https://paperswithcode.com/sota/video-retrieval-on-ssv2-label-retrieval?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-retrieval-on-ssv2-template-retrieval)](https://paperswithcode.com/sota/video-retrieval-on-ssv2-template-retrieval?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/tgif-transition-on-tgif-qa)](https://paperswithcode.com/sota/tgif-transition-on-tgif-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/zero-shot-video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-lsmdc?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-captioning-on-msvd-1)](https://paperswithcode.com/sota/video-captioning-on-msvd-1?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/zero-shot-video-retrieval-on-didemo)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-didemo?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/tgif-frame-on-tgif-qa)](https://paperswithcode.com/sota/tgif-frame-on-tgif-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-captioning-on-msr-vtt-1)](https://paperswithcode.com/sota/video-captioning-on-msr-vtt-1?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/visual-question-answering-on-msvd-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msvd-qa-1?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-question-answering-on-next-qa)](https://paperswithcode.com/sota/video-question-answering-on-next-qa?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-retrieval-on-didemo)](https://paperswithcode.com/sota/video-retrieval-on-didemo?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/video-retrieval-on-lsmdc?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/visual-question-answering-on-msrvtt-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msrvtt-qa-1?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/zero-shot-video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-msr-vtt?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-retrieval-on-activitynet)](https://paperswithcode.com/sota/video-retrieval-on-activitynet?p=hitea-hierarchical-temporal-aware-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hitea-hierarchical-temporal-aware-video/video-retrieval-on-msr-vtt-1ka)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt-1ka?p=hitea-hierarchical-temporal-aware-video)`

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

ICCV 2023 · Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang ·

Video-language pre-training has advanced the performance of various downstream video-language tasks. However, most previous methods directly inherit or adapt typical image-language pre-training paradigms to video-language pre-training, thus not fully exploiting the unique characteristic of video, i.e., temporal. In this paper, we propose a Hierarchical Temporal-Aware video-language pre-training framework, HiTeA, with two novel pre-training tasks for modeling cross-modal alignment between moments and texts as well as the temporal relations of video-text pairs. Specifically, we propose a cross-modal moment exploration task to explore moments in videos, which results in detailed video moment representation. Besides, the inherent temporal relations are captured by aligning video-text pairs as a whole in different time resolutions with multi-modal temporal relation exploration task. Furthermore, we introduce the shuffling test to evaluate the temporal reliance of datasets and video-language pre-training models. We achieve state-of-the-art results on 15 well-established video-language understanding and generation tasks, especially on temporal-oriented datasets (e.g., SSv2-Template and SSv2-Label) with 8.6% and 11.1% improvement respectively. HiTeA also demonstrates strong generalization ability when directly transferred to downstream tasks in a zero-shot manner. Models and demo will be available on ModelScope.

PDF Abstract ICCV 2023 PDF ICCV 2023 Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

TGIF-Action

TGIF-Frame

TGIF-Transition

Video Captioning

Video Question Answering

Video Retrieval

Visual Question Answering (VQA)

Zero-Shot Learning

Zero-Shot Video Retrieval

Datasets

MS COCO

ActivityNet

MSR-VTT

MSVD

DiDeMo

LSMDC

ActivityNet-QA

TGIF-QA

NExT-QA MSRVTT-QA MSVD-QA MSRVTT-MC

Results from the Paper

Edit

Ranked #1 on Visual Question Answering (VQA) on TGIF-QA

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Retrieval	ActivityNet	HiTeA	text-to-video R@1	49.7	# 16	Compare
			text-to-video R@5	77.1	# 13	Compare
			text-to-video R@10	86.7	# 13	Compare
Video Retrieval	DiDeMo	HiTeA	text-to-video R@1	56.5	# 12	Compare
			text-to-video R@5	81.7	# 9	Compare
			text-to-video R@10	89.7	# 8	Compare
Zero-Shot Video Retrieval	DiDeMo	HiTeA-17M	text-to-video R@1	43.2	# 7	Compare
			text-to-video R@5	69.3	# 7	Compare
			text-to-video R@10	79.0	# 6	Compare
Zero-Shot Video Retrieval	DiDeMo	HiTeA-5M	text-to-video R@1	36.1	# 12	Compare
			text-to-video R@5	60.1	# 13	Compare
			text-to-video R@10	70.3	# 11	Compare
Video Retrieval	LSMDC	HiTeA	text-to-video R@1	28.7	# 12	Compare
			text-to-video R@5	50.3	# 7	Compare
			text-to-video R@10	59.0	# 7	Compare
Zero-Shot Video Retrieval	LSMDC	HiTeA-17M	text-to-video R@1	18.3	# 6	Compare
			text-to-video R@5	36.7	# 5	Compare
			text-to-video R@10	44.2	# 6	Compare
Zero-Shot Video Retrieval	LSMDC	HiTeA-5M	text-to-video R@1	15.5	# 9	Compare
			text-to-video R@5	31.1	# 9	Compare
			text-to-video R@10	39.8	# 8	Compare
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-17M	text-to-video R@1	34.4	# 14	Compare
			text-to-video R@5	60.0	# 12	Compare
			text-to-video R@10	69.9	# 12	Compare
Video Captioning	MSR-VTT	HiTeA	CIDEr	65.1	# 10	Compare
			METEOR	30.7	# 9	Compare
			ROUGE-L	65.0	# 7	Compare
			BLEU-4	49.2	# 9	Compare
Zero-Shot Video Retrieval	MSR-VTT	HiTeA-5M	text-to-video R@1	29.9	# 18	Compare
			text-to-video R@5	54.2	# 17	Compare
			text-to-video R@10	62.9	# 17	Compare
Video Retrieval	MSR-VTT-1kA	HiTeA	text-to-video R@1	46.8	# 29	Compare
			text-to-video R@5	71.2	# 33	Compare
			text-to-video R@10	81.9	# 32	Compare
Video Question Answering	MSRVTT-MC	HiTeA	Accuracy	97.4	# 2	Compare
Zero-Shot Learning	MSRVTT-QA	HiTeA	Accuracy	21.7	# 1	Compare
Visual Question Answering (VQA)	MSRVTT-QA	HiTeA	Accuracy	0.459	# 12	Compare
Video Captioning	MSVD	HiTeA	CIDEr	146.9	# 6	Compare
			BLEU-4	71.0	# 4	Compare
			METEOR	45.3	# 4	Compare
			ROUGE-L	81.4	# 5	Compare
Visual Question Answering (VQA)	MSVD-QA	HiTeA	Accuracy	0.556	# 11	Compare
Zero-Shot Learning	MSVD-QA	HiTeA	Accuracy	37.4	# 1	Compare
Video Question Answering	NExT-QA	HiTeA	Accuracy	63.1	# 11	Compare
Video Retrieval	SSv2-label retrieval	HiTeA	text-to-video R@1	55.2	# 3	Compare
			text-to-video R@5	89.1	# 3	Compare
			text-to-video R@10	81.4	# 4	Compare
Video Retrieval	SSv2-template retrieval	HiTeA	text-to-video R@1	85.6	# 3	Compare
			text-to-video R@5	100	# 1	Compare
			text-to-video R@10	100	# 1	Compare
TGIF-Transition	TGIF-QA	HiTeA	Accuracy	98.8	# 3	Compare
TGIF-Action	TGIF-QA	HiTeA	Accuracy	97.2	# 2	Compare
Visual Question Answering (VQA)	TGIF-QA	HiTeA	Accuracy	0.732	# 1	Compare
TGIF-Frame	TGIF-QA	HiTeA	Accuracy	73.2	# 7	Compare

Methods

Add Remove

Test

Edit Social Preview

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove