TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Self-Supervised Audio Classification	ESC-50	AVID	Top-1 Accuracy	89.2	# 3
Audio Classification	ESC-50	AVID	Top-1 Accuracy	89.2	# 17
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Kinetics)	Top-1 Accuracy	60.8	# 25
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Kinetics)	Pre-Training Dataset	Kinetics400 (Video+Audio)	# 1
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Kinetics)	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Audioset)	Top-1 Accuracy	64.1	# 20
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Audioset)	Pre-Training Dataset	Audioset (Video+Audio)	# 1
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Audioset)	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Audioset)	Top-1 Accuracy	64.7	# 16
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Audioset)	Pre-Training Dataset	Audioset (Video+Audio)	# 1
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Audioset)	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Kinetics)	Top-1 Accuracy	59.9	# 27
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Kinetics)	Pre-Training Dataset	Kinetics400 (Video+Audio)	# 1
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Kinetics)	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51 (finetuned)	AVID	Top-1 Accuracy	64.7	# 8
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Kinetics)	3-fold Accuracy	86.9	# 27
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Kinetics)	Pre-Training Dataset	Kinetics400 (Audio+Video)	# 1
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Kinetics)	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Kinetics)	3-fold Accuracy	87.5	# 26
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Kinetics)	Pre-Training Dataset	Kinetics400 (Audio+Video)	# 1
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Kinetics)	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Audioset)	3-fold Accuracy	91.0	# 21
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Audioset)	Pre-Training Dataset	Audioset (Audio+Video)	# 1
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Audioset)	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Audioset)	3-fold Accuracy	91.5	# 18
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Audioset)	Pre-Training Dataset	Audioset (Audio+Video)	# 1
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Audioset)	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101 (finetuned)	AVID	3-fold Accuracy	91.5	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-visual-instance-discrimination-with/self-supervised-audio-classification-on-esc)](https://paperswithcode.com/sota/self-supervised-audio-classification-on-esc?p=audio-visual-instance-discrimination-with)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-visual-instance-discrimination-with/self-supervised-action-recognition-on-ucf101-1)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101-1?p=audio-visual-instance-discrimination-with)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-visual-instance-discrimination-with/self-supervised-action-recognition-on-hmdb51-1)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51-1?p=audio-visual-instance-discrimination-with)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-visual-instance-discrimination-with/self-supervised-action-recognition-on-hmdb51)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51?p=audio-visual-instance-discrimination-with)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-visual-instance-discrimination-with/audio-classification-on-esc-50)](https://paperswithcode.com/sota/audio-classification-on-esc-50?p=audio-visual-instance-discrimination-with)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-visual-instance-discrimination-with/self-supervised-action-recognition-on-ucf101)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101?p=audio-visual-instance-discrimination-with)`

Audio-Visual Instance Discrimination with Cross-Modal Agreement

CVPR 2021 · Pedro Morgado, Nuno Vasconcelos, Ishan Misra ·

We present a self-supervised learning approach to learn audio-visual representations from video and audio. Our method uses contrastive learning for cross-modal discrimination of video from audio and vice-versa. We show that optimizing for cross-modal discrimination, rather than within-modal discrimination, is important to learn good representations from video and audio. With this simple but powerful insight, our method achieves highly competitive performance when finetuned on action recognition tasks. Furthermore, while recent work in contrastive learning defines positive and negative samples as individual instances, we generalize this definition by exploring cross-modal agreement. We group together multiple instances as positives by measuring their similarity in both the video and audio feature spaces. Cross-modal agreement creates better positive and negative sets, which allows us to calibrate visual similarities by seeking within-modal discrimination of positive instances, and achieve significant gains on downstream tasks.

PDF Abstract CVPR 2021 PDF CVPR 2021 Abstract

Code

Add Remove Mark official

facebookresearch/AVID-CMA official

125

Tasks

Add Remove

Action Recognition

Audio Classification

Contrastive Learning

Self-Supervised Action Recognition

Self-Supervised Audio Classification

Self-Supervised Learning

Datasets

UCF101

Kinetics

HMDB51

AudioSet

ESC-50

Results from the Paper

Edit

Ranked #3 on Self-Supervised Audio Classification on ESC-50

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Self-Supervised Audio Classification	ESC-50	AVID	Top-1 Accuracy	89.2	# 3	Compare
Audio Classification	ESC-50	AVID	Top-1 Accuracy	89.2	# 17	Compare
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Kinetics)	Top-1 Accuracy	60.8	# 25	Compare
			Pre-Training Dataset	Kinetics400 (Video+Audio)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Audioset)	Top-1 Accuracy	64.1	# 20	Compare
			Pre-Training Dataset	Audioset (Video+Audio)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51	AVID+CMA (Modified R2+1D-18 on Audioset)	Top-1 Accuracy	64.7	# 16	Compare
			Pre-Training Dataset	Audioset (Video+Audio)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51	AVID (Modified R2+1D-18 on Kinetics)	Top-1 Accuracy	59.9	# 27	Compare
			Pre-Training Dataset	Kinetics400 (Video+Audio)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51 (finetuned)	AVID	Top-1 Accuracy	64.7	# 8	Compare
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Kinetics)	3-fold Accuracy	86.9	# 27	Compare
			Pre-Training Dataset	Kinetics400 (Audio+Video)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Kinetics)	3-fold Accuracy	87.5	# 26	Compare
			Pre-Training Dataset	Kinetics400 (Audio+Video)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101	AVID (Modified R2+1D-18 on Audioset)	3-fold Accuracy	91.0	# 21	Compare
			Pre-Training Dataset	Audioset (Audio+Video)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101	AVID+CMA (Modified R2+1D-18 on Audioset)	3-fold Accuracy	91.5	# 18	Compare
			Pre-Training Dataset	Audioset (Audio+Video)	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101 (finetuned)	AVID	3-fold Accuracy	91.5	# 7	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Audio-Visual Instance Discrimination with Cross-Modal Agreement

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove