TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Natural Language Moment Retrieval	MAD	CLIP	R@1,IoU=0.1	6.57	# 2
Natural Language Moment Retrieval	MAD	CLIP	R@5,IoU=0.1	15.05	# 3
Natural Language Moment Retrieval	MAD	CLIP	R@10,IoU=0.1	20.26	# 3
Natural Language Moment Retrieval	MAD	CLIP	R@50,IoU=0.1	37.92	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@100,IoU=0.1	47.73	# 3
Natural Language Moment Retrieval	MAD	CLIP	R@1,IoU=0.3	3.13	# 3
Natural Language Moment Retrieval	MAD	CLIP	R@5,IoU=0.3	9.85	# 2
Natural Language Moment Retrieval	MAD	CLIP	R@10,IoU=0.3	14.13	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@50,IoU=0.3	28.71	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@100,IoU=0.3	36.98	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@1,IoU=0.5	1.39	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@5,IoU=0.5	5.44	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@10,IoU=0.5	8.38	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@50,IoU=0.5	18.80	# 4
Natural Language Moment Retrieval	MAD	CLIP	R@100,IoU=0.5	24.99	# 4
Natural Language Moment Retrieval	MAD	Random Chance	R@1,IoU=0.1	0.09	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@5,IoU=0.1	0.44	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@10,IoU=0.1	0.88	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@50,IoU=0.1	4.33	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@100,IoU=0.1	8.47	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@1,IoU=0.3	0.04	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@5,IoU=0.3	0.19	# 4
Natural Language Moment Retrieval	MAD	Random Chance	R@10,IoU=0.3	0.39	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@50,IoU=0.3	1.92	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@100,IoU=0.3	3.80	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@1,IoU=0.5	0.01	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@5,IoU=0.5	0.07	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@10,IoU=0.5	0.14	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@50,IoU=0.5	0.71	# 5
Natural Language Moment Retrieval	MAD	Random Chance	R@100,IoU=0.5	1.40	# 5
Natural Language Moment Retrieval	MAD	VLG-Net	R@1,IoU=0.1	3.50	# 4
Natural Language Moment Retrieval	MAD	VLG-Net	R@5,IoU=0.1	11.74	# 4
Natural Language Moment Retrieval	MAD	VLG-Net	R@10,IoU=0.1	18.32	# 4
Natural Language Moment Retrieval	MAD	VLG-Net	R@50,IoU=0.1	38.41	# 3
Natural Language Moment Retrieval	MAD	VLG-Net	R@100,IoU=0.1	49.65	# 2
Natural Language Moment Retrieval	MAD	VLG-Net	R@1,IoU=0.3	2.63	# 4
Natural Language Moment Retrieval	MAD	VLG-Net	R@5,IoU=0.3	9.49	# 3
Natural Language Moment Retrieval	MAD	VLG-Net	R@10,IoU=0.3	15.2	# 3
Natural Language Moment Retrieval	MAD	VLG-Net	R@50,IoU=0.3	33.68	# 2
Natural Language Moment Retrieval	MAD	VLG-Net	R@100,IoU=0.3	43.95	# 2
Natural Language Moment Retrieval	MAD	VLG-Net	R@1,IoU=0.5	1.61	# 3
Natural Language Moment Retrieval	MAD	VLG-Net	R@5,IoU=0.5	6.23	# 3
Natural Language Moment Retrieval	MAD	VLG-Net	R@10,IoU=0.5	10.18	# 3
Natural Language Moment Retrieval	MAD	VLG-Net	R@50,IoU=0.5	25.33	# 2
Natural Language Moment Retrieval	MAD	VLG-Net	R@100,IoU=0.5	34.18	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mad-a-scalable-dataset-for-language-grounding/natural-language-moment-retrieval-on-mad)](https://paperswithcode.com/sota/natural-language-moment-retrieval-on-mad?p=mad-a-scalable-dataset-for-language-grounding)`

MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions

CVPR 2022 · Mattia Soldan, Alejandro Pardo, Juan León Alcázar, Fabian Caba Heilbron, Chen Zhao, Silvio Giancola, Bernard Ghanem ·

The recent and increasing interest in video-language research has driven the development of large-scale datasets that enable data-intensive machine learning techniques. In comparison, limited effort has been made at assessing the fitness of these datasets for the video-language grounding task. Recent works have begun to discover significant limitations in these datasets, suggesting that state-of-the-art techniques commonly overfit to hidden dataset biases. In this work, we present MAD (Movie Audio Descriptions), a novel benchmark that departs from the paradigm of augmenting existing video datasets with text annotations and focuses on crawling and aligning available audio descriptions of mainstream movies. MAD contains over 384,000 natural language sentences grounded in over 1,200 hours of videos and exhibits a significant reduction in the currently diagnosed biases for video-language grounding datasets. MAD's collection strategy enables a novel and more challenging version of video-language grounding, where short temporal moments (typically seconds long) must be accurately grounded in diverse long-form videos that can last up to three hours. We have released MAD's data and baselines code at https://github.com/Soldelli/MAD.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

Soldelli/MAD official

134

Tasks

Add Remove

Moment Retrieval

Natural Language Moment Retrieval

Datasets

Introduced in the Paper:

MAD

Results from the Paper

Edit

Ranked #2 on Natural Language Moment Retrieval on MAD

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Natural Language Moment Retrieval	MAD	CLIP	R@1,IoU=0.1	6.57	# 2	Compare
			R@5,IoU=0.1	15.05	# 3	Compare
			R@10,IoU=0.1	20.26	# 3	Compare
			R@50,IoU=0.1	37.92	# 4	Compare
			R@100,IoU=0.1	47.73	# 3	Compare
			R@1,IoU=0.3	3.13	# 3	Compare
			R@5,IoU=0.3	9.85	# 2	Compare
			R@10,IoU=0.3	14.13	# 4	Compare
			R@50,IoU=0.3	28.71	# 4	Compare
			R@100,IoU=0.3	36.98	# 4	Compare
			R@1,IoU=0.5	1.39	# 4	Compare
			R@5,IoU=0.5	5.44	# 4	Compare
			R@10,IoU=0.5	8.38	# 4	Compare
			R@50,IoU=0.5	18.80	# 4	Compare
			R@100,IoU=0.5	24.99	# 4	Compare
Natural Language Moment Retrieval	MAD	Random Chance	R@1,IoU=0.1	0.09	# 5	Compare
			R@5,IoU=0.1	0.44	# 5	Compare
			R@10,IoU=0.1	0.88	# 5	Compare
			R@50,IoU=0.1	4.33	# 5	Compare
			R@100,IoU=0.1	8.47	# 5	Compare
			R@1,IoU=0.3	0.04	# 5	Compare
			R@5,IoU=0.3	0.19	# 4	Compare
			R@10,IoU=0.3	0.39	# 5	Compare
			R@50,IoU=0.3	1.92	# 5	Compare
			R@100,IoU=0.3	3.80	# 5	Compare
			R@1,IoU=0.5	0.01	# 5	Compare
			R@5,IoU=0.5	0.07	# 5	Compare
			R@10,IoU=0.5	0.14	# 5	Compare
			R@50,IoU=0.5	0.71	# 5	Compare
			R@100,IoU=0.5	1.40	# 5	Compare
Natural Language Moment Retrieval	MAD	VLG-Net	R@1,IoU=0.1	3.50	# 4	Compare
			R@5,IoU=0.1	11.74	# 4	Compare
			R@10,IoU=0.1	18.32	# 4	Compare
			R@50,IoU=0.1	38.41	# 3	Compare
			R@100,IoU=0.1	49.65	# 2	Compare
			R@1,IoU=0.3	2.63	# 4	Compare
			R@5,IoU=0.3	9.49	# 3	Compare
			R@10,IoU=0.3	15.2	# 3	Compare
			R@50,IoU=0.3	33.68	# 2	Compare
			R@100,IoU=0.3	43.95	# 2	Compare
			R@1,IoU=0.5	1.61	# 3	Compare
			R@5,IoU=0.5	6.23	# 3	Compare
			R@10,IoU=0.5	10.18	# 3	Compare
			R@50,IoU=0.5	25.33	# 2	Compare
			R@100,IoU=0.5	34.18	# 2	Compare

Methods

Add Remove

CLIP • VLG-Net

Edit Social Preview

MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove