TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Retrieval	ActivityNet	COSA	text-to-video R@1	67.3	# 4
Video Question Answering	ActivityNet-QA	COSA	Accuracy	49.9	# 6
Video Retrieval	DiDeMo	COSA	text-to-video R@1	70.5	# 4
Video Retrieval	LSMDC	COSA	text-to-video R@1	39.4	# 5
Video Retrieval	MSR-VTT	COSA	text-to-video R@1	57.9	# 6
Video Captioning	MSR-VTT	COSA	CIDEr	74.7	# 5
Video Captioning	MSR-VTT	COSA	BLEU-4	53.7	# 7
Video Question Answering	MSRVTT-QA	COSA	Accuracy	49.2	# 3
Video Captioning	MSVD	COSA	CIDEr	178.5	# 3
Video Captioning	MSVD	COSA	BLEU-4	76.5	# 3
Visual Question Answering (VQA)	MSVD-QA	COSA	Accuracy	0.60	# 4
TGIF-Frame	TGIF-QA	COSA	Accuracy	79.5	# 1
Video Captioning	TVC	COSA	BLEU-4	18.8	# 2
Video Captioning	TVC	COSA	CIDEr	70.7	# 2
Video Captioning	VATEX	COSA	BLEU-4	43.7	# 3
Video Captioning	VATEX	COSA	CIDEr	96.5	# 2
Video Captioning	YouCook2	COSA	BLEU-4	10.1	# 9
Video Captioning	YouCook2	COSA	CIDEr	1.31	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/tgif-frame-on-tgif-qa)](https://paperswithcode.com/sota/tgif-frame-on-tgif-qa?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-captioning-on-tvc)](https://paperswithcode.com/sota/video-captioning-on-tvc?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-question-answering-on-msrvtt-qa)](https://paperswithcode.com/sota/video-question-answering-on-msrvtt-qa?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-captioning-on-msvd-1)](https://paperswithcode.com/sota/video-captioning-on-msvd-1?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-captioning-on-vatex-1)](https://paperswithcode.com/sota/video-captioning-on-vatex-1?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-retrieval-on-activitynet)](https://paperswithcode.com/sota/video-retrieval-on-activitynet?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-retrieval-on-didemo)](https://paperswithcode.com/sota/video-retrieval-on-didemo?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/visual-question-answering-on-msvd-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msvd-qa-1?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-retrieval-on-lsmdc)](https://paperswithcode.com/sota/video-retrieval-on-lsmdc?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-captioning-on-msr-vtt-1)](https://paperswithcode.com/sota/video-captioning-on-msr-vtt-1?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-question-answering-on-activitynet-qa)](https://paperswithcode.com/sota/video-question-answering-on-activitynet-qa?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt?p=cosa-concatenated-sample-pretrained-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cosa-concatenated-sample-pretrained-vision/video-captioning-on-youcook2)](https://paperswithcode.com/sota/video-captioning-on-youcook2?p=cosa-concatenated-sample-pretrained-vision)`

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

15 Jun 2023 · Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu ·

Due to the limited scale and quality of video-text training corpus, most vision-language foundation models employ image-text datasets for pretraining and primarily focus on modeling visually semantic representations while disregarding temporal semantic representations and correlations. To address this issue, we propose COSA, a COncatenated SAmple pretrained vision-language foundation model. COSA jointly models visual contents and event-level temporal cues using only image-text corpora. We achieve this by sequentially concatenating multiple image-text pairs as inputs for pretraining. This transformation effectively converts existing image-text corpora into a pseudo long-form video-paragraph corpus, enabling richer scene transformations and explicit event-description correspondence. Extensive experiments demonstrate that COSA consistently improves performance across a broad range of downstream tasks, including long-form/short-form video-text tasks and image-text tasks such as retrieval, captioning, and question answering. Notably, COSA achieves state-of-the-art results on various competitive benchmarks. Code and model are released at https://github.com/TXH-mercury/COSA.

PDF Abstract

Code

Add Remove Mark official

txh-mercury/cosa official

Tasks

Add Remove

Question Answering

Retrieval

TGIF-Frame

Video Captioning

Video Captioning on MSR-VTT

Video Question Answering

Video Retrieval

Visual Question Answering (VQA)

Datasets

MS COCO

Kinetics

ActivityNet

Kinetics 400

MSR-VTT

MSVD

DiDeMo

WebVid

YouCook2

LAION-400M

LSMDC

CC12M

VATEX

ActivityNet-QA

TGIF-QA MSRVTT-QA MSVD-QA

TGIF

TVC

Results from the Paper

Add Remove

Ranked #1 on TGIF-Frame on TGIF-QA (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Retrieval	ActivityNet	COSA	text-to-video R@1	67.3	# 4	Compare
Video Question Answering	ActivityNet-QA	COSA	Accuracy	49.9	# 6	Compare
Video Retrieval	DiDeMo	COSA	text-to-video R@1	70.5	# 4	Compare
Video Retrieval	LSMDC	COSA	text-to-video R@1	39.4	# 5	Compare
Video Retrieval	MSR-VTT	COSA	text-to-video R@1	57.9	# 6	Compare
Video Captioning	MSR-VTT	COSA	CIDEr	74.7	# 5	Compare
Video Captioning	MSR-VTT	COSA	BLEU-4	53.7	# 7	Compare
Video Question Answering	MSRVTT-QA	COSA	Accuracy	49.2	# 3	Compare
Video Captioning	MSVD	COSA	CIDEr	178.5	# 3	Compare
Video Captioning	MSVD	COSA	BLEU-4	76.5	# 3	Compare
Visual Question Answering (VQA)	MSVD-QA	COSA	Accuracy	0.60	# 4	Compare
TGIF-Frame	TGIF-QA	COSA	Accuracy	79.5	# 1	Compare
Video Captioning	TVC	COSA	BLEU-4	18.8	# 2	Compare
Video Captioning	TVC	COSA	CIDEr	70.7	# 2	Compare
Video Captioning	VATEX	COSA	BLEU-4	43.7	# 3	Compare
Video Captioning	VATEX	COSA	CIDEr	96.5	# 2	Compare
Video Captioning	YouCook2	COSA	BLEU-4	10.1	# 9	Compare
Video Captioning	YouCook2	COSA	CIDEr	1.31	# 6	Compare

Methods

Add Remove

Focus

Edit Social Preview

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove