TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Multimodal Sentiment Analysis	CMU-MOSI	UniVL + MELTR	F1	85.4	# 2
Multimodal Sentiment Analysis	CMU-MOSI	UniVL + MELTR	MAE	0.759	# 8
Multimodal Sentiment Analysis	CMU-MOSI	UniVL + MELTR	Corr	0.789	# 6
Multimodal Sentiment Analysis	CMU-MOSI	UniVL + MELTR	Acc-2	85.3	# 4
Video Retrieval	MSR-VTT	All-in-one + MELTR	text-to-video R@1	38.6	# 14
Video Retrieval	MSR-VTT	All-in-one + MELTR	text-to-video R@5	74.4	# 7
Video Retrieval	MSR-VTT	All-in-one + MELTR	text-to-video R@10	84.7	# 6
Video Captioning	MSR-VTT	UniVL + MELTR	CIDEr	52.77	# 22
Video Captioning	MSR-VTT	UniVL + MELTR	METEOR	29.26	# 16
Video Captioning	MSR-VTT	UniVL + MELTR	ROUGE-L	62.35	# 17
Video Captioning	MSR-VTT	UniVL + MELTR	BLEU-4	44.17	# 18
Video Retrieval	MSR-VTT	UniVL + MELTR	text-to-video R@1	28.5	# 27
Video Retrieval	MSR-VTT	UniVL + MELTR	text-to-video R@5	55.5	# 22
Video Retrieval	MSR-VTT	UniVL + MELTR	text-to-video R@10	67.6	# 20
Video Retrieval	MSR-VTT	UniVL + MELTR	text-to-video Median Rank	4	# 7
Video Retrieval	MSR-VTT	VIOLET + MELTR	text-to-video R@1	33.6	# 19
Video Retrieval	MSR-VTT	VIOLET + MELTR	text-to-video R@5	63.7	# 14
Video Retrieval	MSR-VTT	VIOLET + MELTR	text-to-video R@10	77.8	# 13
Video Retrieval	MSR-VTT	VIOLET + MELTR	text-to-video Median Rank	3	# 1
Video Retrieval	MSR-VTT-1kA	VIOLET + MELTR	text-to-video R@1	35.5	# 43
Video Retrieval	MSR-VTT-1kA	VIOLET + MELTR	text-to-video R@5	67.2	# 38
Video Retrieval	MSR-VTT-1kA	VIOLET + MELTR	text-to-video R@10	78.4	# 39
Video Retrieval	MSR-VTT-1kA	VIOLET + MELTR	text-to-video Median Rank	3	# 24
Video Retrieval	MSR-VTT-1kA	All-in-one + MELTR	text-to-video R@1	41.3	# 35
Video Retrieval	MSR-VTT-1kA	All-in-one + MELTR	text-to-video R@5	73.5	# 24
Video Retrieval	MSR-VTT-1kA	All-in-one + MELTR	text-to-video R@10	82.5	# 27
Video Retrieval	MSR-VTT-1kA	UniVL + MELTR	text-to-video R@1	31.1	# 45
Video Retrieval	MSR-VTT-1kA	UniVL + MELTR	text-to-video R@5	55.7	# 46
Video Retrieval	MSR-VTT-1kA	UniVL + MELTR	text-to-video R@10	68.3	# 49
Video Retrieval	MSR-VTT-1kA	UniVL + MELTR	text-to-video Median Rank	4	# 28
Visual Question Answering (VQA)	MSVD-QA	VIOLET + MELTR	Accuracy	0.517	# 20
TGIF-Transition	TGIF-QA	VIOLET + MELTR	Accuracy	97.5	# 5
TGIF-Frame	TGIF-QA	VIOLET + MELTR	Accuracy	63.4	# 16
TGIF-Action	TGIF-QA	VIOLET + MELTR	Accuracy	95.4	# 3
Video Captioning	YouCook2	UniVL + MELTR	BLEU-3	24.12	# 1
Video Captioning	YouCook2	UniVL + MELTR	BLEU-4	17.92	# 2
Video Captioning	YouCook2	UniVL + MELTR	METEOR	22.56	# 1
Video Captioning	YouCook2	UniVL + MELTR	ROUGE-L	47.04	# 1
Video Captioning	YouCook2	UniVL + MELTR	CIDEr	1.90	# 2
Video Retrieval	YouCook2	UniVL + MELTR	text-to-video Median Rank	3	# 1
Video Retrieval	YouCook2	UniVL + MELTR	text-to-video R@1	33.7	# 2
Video Retrieval	YouCook2	UniVL + MELTR	text-to-video R@10	74.8	# 3
Video Retrieval	YouCook2	UniVL + MELTR	text-to-video R@5	63.1	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/multimodal-sentiment-analysis-on-cmu-mosi)](https://paperswithcode.com/sota/multimodal-sentiment-analysis-on-cmu-mosi?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/video-captioning-on-youcook2)](https://paperswithcode.com/sota/video-captioning-on-youcook2?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/video-retrieval-on-youcook2)](https://paperswithcode.com/sota/video-retrieval-on-youcook2?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/tgif-action-on-tgif-qa)](https://paperswithcode.com/sota/tgif-action-on-tgif-qa?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/tgif-transition-on-tgif-qa)](https://paperswithcode.com/sota/tgif-transition-on-tgif-qa?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/tgif-frame-on-tgif-qa)](https://paperswithcode.com/sota/tgif-frame-on-tgif-qa?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/visual-question-answering-on-msvd-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msvd-qa-1?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/video-captioning-on-msr-vtt-1)](https://paperswithcode.com/sota/video-captioning-on-msr-vtt-1?p=meltr-meta-loss-transformer-for-learning-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/meltr-meta-loss-transformer-for-learning-to/video-retrieval-on-msr-vtt-1ka)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt-1ka?p=meltr-meta-loss-transformer-for-learning-to)`

MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models

CVPR 2023 · Dohwan Ko, Joonmyung Choi, Hyeong Kyu Choi, Kyoung-Woon On, Byungseok Roh, Hyunwoo J. Kim ·

Foundation models have shown outstanding performance and generalization capabilities across domains. Since most studies on foundation models mainly focus on the pretraining phase, a naive strategy to minimize a single task-specific loss is adopted for fine-tuning. However, such fine-tuning methods do not fully leverage other losses that are potentially beneficial for the target task. Therefore, we propose MEta Loss TRansformer (MELTR), a plug-in module that automatically and non-linearly combines various loss functions to aid learning the target task via auxiliary learning. We formulate the auxiliary learning as a bi-level optimization problem and present an efficient optimization algorithm based on Approximate Implicit Differentiation (AID). For evaluation, we apply our framework to various video foundation models (UniVL, Violet and All-in-one), and show significant performance gain on all four downstream tasks: text-to-video retrieval, video question answering, video captioning, and multi-modal sentiment analysis. Our qualitative analyses demonstrate that MELTR adequately `transforms' individual loss functions and `melts' them into an effective unified loss. Code is available at https://github.com/mlvlab/MELTR.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

mlvlab/MELTR official

Tasks

Add Remove

Auxiliary Learning

Multimodal Sentiment Analysis

Question Answering

Retrieval

Sentiment Analysis

Text to Video Retrieval

TGIF-Action

TGIF-Frame

TGIF-Transition

Video Captioning

Video Question Answering

Video Retrieval

Visual Question Answering (VQA)

Datasets

MSR-VTT

MSVD

HowTo100M

WebVid

YouCook2

TGIF-QA MSVD-QA

CMU-MOSI

Results from the Paper

Edit

Ranked #2 on Video Captioning on YouCook2

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Multimodal Sentiment Analysis	CMU-MOSI	UniVL + MELTR	F1	85.4	# 2	Compare
			MAE	0.759	# 8	Compare
			Corr	0.789	# 6	Compare
			Acc-2	85.3	# 4	Compare
Video Retrieval	MSR-VTT	All-in-one + MELTR	text-to-video R@1	38.6	# 14	Compare
			text-to-video R@5	74.4	# 7	Compare
			text-to-video R@10	84.7	# 6	Compare
Video Captioning	MSR-VTT	UniVL + MELTR	CIDEr	52.77	# 22	Compare
			METEOR	29.26	# 16	Compare
			ROUGE-L	62.35	# 17	Compare
			BLEU-4	44.17	# 18	Compare
Video Retrieval	MSR-VTT	UniVL + MELTR	text-to-video R@1	28.5	# 27	Compare
			text-to-video R@5	55.5	# 22	Compare
			text-to-video R@10	67.6	# 20	Compare
			text-to-video Median Rank	4	# 7	Compare
Video Retrieval	MSR-VTT	VIOLET + MELTR	text-to-video R@1	33.6	# 19	Compare
			text-to-video R@5	63.7	# 14	Compare
			text-to-video R@10	77.8	# 13	Compare
			text-to-video Median Rank	3	# 1	Compare
Video Retrieval	MSR-VTT-1kA	VIOLET + MELTR	text-to-video R@1	35.5	# 43	Compare
			text-to-video R@5	67.2	# 38	Compare
			text-to-video R@10	78.4	# 39	Compare
			text-to-video Median Rank	3	# 24	Compare
Video Retrieval	MSR-VTT-1kA	All-in-one + MELTR	text-to-video R@1	41.3	# 35	Compare
			text-to-video R@5	73.5	# 24	Compare
			text-to-video R@10	82.5	# 27	Compare
Video Retrieval	MSR-VTT-1kA	UniVL + MELTR	text-to-video R@1	31.1	# 45	Compare
			text-to-video R@5	55.7	# 46	Compare
			text-to-video R@10	68.3	# 49	Compare
			text-to-video Median Rank	4	# 28	Compare
Visual Question Answering (VQA)	MSVD-QA	VIOLET + MELTR	Accuracy	0.517	# 20	Compare
TGIF-Transition	TGIF-QA	VIOLET + MELTR	Accuracy	97.5	# 5	Compare
TGIF-Frame	TGIF-QA	VIOLET + MELTR	Accuracy	63.4	# 16	Compare
TGIF-Action	TGIF-QA	VIOLET + MELTR	Accuracy	95.4	# 3	Compare
Video Captioning	YouCook2	UniVL + MELTR	BLEU-3	24.12	# 1	Compare
			BLEU-4	17.92	# 2	Compare
			METEOR	22.56	# 1	Compare
			ROUGE-L	47.04	# 1	Compare
			CIDEr	1.90	# 2	Compare
Video Retrieval	YouCook2	UniVL + MELTR	text-to-video Median Rank	3	# 1	Compare
			text-to-video R@1	33.7	# 2	Compare
			text-to-video R@10	74.8	# 3	Compare
			text-to-video R@5	63.1	# 3	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove