TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Few-Shot Audio Classification	BirdClef 2020 (Pruned)	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	29.49±0.38	# 9
Few-Shot Audio Classification	BirdClef 2020 (Pruned)	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	30.93±0.38	# 8
Few-Shot Audio Classification	BirdClef 2020 (Pruned)	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.04±0.35	# 10
Few-Shot Audio Classification	Common Voice	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	35.22±0.40	# 1
Few-Shot Audio Classification	Common Voice	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	23.00±0.42	# 3
Few-Shot Audio Classification	Common Voice	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	33.33±0.38	# 2
Few-Shot Audio Classification	CREMA-D	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	29.10±0.36	# 2
Few-Shot Audio Classification	CREMA-D	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	29.61±0.38	# 1
Few-Shot Audio Classification	CREMA-D	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.68±0.33	# 3
Few-Shot Audio Classification	ESC-50	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	63.40±0.39	# 8
Few-Shot Audio Classification	ESC-50	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	69.53±0.39	# 4
Few-Shot Audio Classification	ESC-50	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	37.76±0.34	# 10
Few-Shot Audio Classification	FSDKaggle2018	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.72±0.34	# 10
Few-Shot Audio Classification	FSDKaggle2018	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	39.11±0.41	# 6
Few-Shot Audio Classification	FSDKaggle2018	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	37.64±0.40	# 8
Few-Shot Audio Classification	NSynth	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	62.52±0.36	# 10
Few-Shot Audio Classification	NSynth	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	71.81±0.39	# 6
Few-Shot Audio Classification	NSynth	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	66.44±0.40	# 8
Few-Shot Audio Classification	Speech Accent Archive	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	26.16±0.34	# 2
Few-Shot Audio Classification	Speech Accent Archive	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	23.08±0.34	# 3
Few-Shot Audio Classification	Speech Accent Archive	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	28.92±0.37	# 1
Few-Shot Audio Classification	Speech Command v2	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	25.68±0.35	# 1
Few-Shot Audio Classification	Speech Command v2	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	20.08±0.37	# 3
Few-Shot Audio Classification	Speech Command v2	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	23.65±0.34	# 2
Few-Shot Audio Classification	VoxCeleb1	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.68±0.40	# 10
Few-Shot Audio Classification	VoxCeleb1	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	33.58±0.39	# 6
Few-Shot Audio Classification	VoxCeleb1	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	31.18±0.37	# 7
Few-Shot Audio Classification	Watkins Marine Mammal Sounds	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	59.49±0.42	# 1
Few-Shot Audio Classification	Watkins Marine Mammal Sounds	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	52.91±0.41	# 3
Few-Shot Audio Classification	Watkins Marine Mammal Sounds	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	28.88±0.39	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-common-voice)](https://paperswithcode.com/sota/few-shot-audio-classification-on-common-voice?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-crema-d)](https://paperswithcode.com/sota/few-shot-audio-classification-on-crema-d?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-speech-1)](https://paperswithcode.com/sota/few-shot-audio-classification-on-speech-1?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-speech)](https://paperswithcode.com/sota/few-shot-audio-classification-on-speech?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-watkins)](https://paperswithcode.com/sota/few-shot-audio-classification-on-watkins?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-esc-50)](https://paperswithcode.com/sota/few-shot-audio-classification-on-esc-50?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on)](https://paperswithcode.com/sota/few-shot-audio-classification-on?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-nsynth)](https://paperswithcode.com/sota/few-shot-audio-classification-on-nsynth?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-voxceleb1)](https://paperswithcode.com/sota/few-shot-audio-classification-on-voxceleb1?p=mt-slvr-multi-task-self-supervised-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mt-slvr-multi-task-self-supervised-learning/few-shot-audio-classification-on-birdclef)](https://paperswithcode.com/sota/few-shot-audio-classification-on-birdclef?p=mt-slvr-multi-task-self-supervised-learning)`

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

29 May 2023 · Calum Heggan, Tim Hospedales, Sam Budgett, Mehrdad Yaghoobi ·

Contrastive self-supervised learning has gained attention for its ability to create high-quality representations from large unlabelled data sets. A key reason that these powerful features enable data-efficient learning of downstream tasks is that they provide augmentation invariance, which is often a useful inductive bias. However, the amount and type of invariances preferred is not known apriori, and varies across different downstream tasks. We therefore propose a multi-task self-supervised framework (MT-SLVR) that learns both variant and invariant features in a parameter-efficient manner. Our multi-task representation provides a strong and flexible feature that benefits diverse downstream tasks. We evaluate our approach on few-shot classification tasks drawn from a variety of audio domains and demonstrate improved classification performance on all of them

PDF Abstract

Code

Add Remove Mark official

cheggan/mt-slvr official

Tasks

Add Remove

Few-Shot Audio Classification

Inductive Bias

Self-Supervised Learning

Unsupervised Few-Shot Audio Classification

Datasets

VoxCeleb1

AudioSet

Speech Commands

Common Voice

ESC-50

NSynth CREMA-D

FSDKaggle2018 BirdClef 2020 (Pruned)

Watkins Marine Mammal Sounds

Speech Accent Archive

Results from the Paper

Edit

Ranked #1 on Few-Shot Audio Classification on Common Voice (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Few-Shot Audio Classification	BirdClef 2020 (Pruned)	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	29.49±0.38	# 9	Compare
Few-Shot Audio Classification	BirdClef 2020 (Pruned)	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	30.93±0.38	# 8	Compare
Few-Shot Audio Classification	BirdClef 2020 (Pruned)	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.04±0.35	# 10	Compare
Few-Shot Audio Classification	Common Voice	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	35.22±0.40	# 1	Compare
Few-Shot Audio Classification	Common Voice	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	23.00±0.42	# 3	Compare
Few-Shot Audio Classification	Common Voice	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	33.33±0.38	# 2	Compare
Few-Shot Audio Classification	CREMA-D	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	29.10±0.36	# 2	Compare
Few-Shot Audio Classification	CREMA-D	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	29.61±0.38	# 1	Compare
Few-Shot Audio Classification	CREMA-D	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.68±0.33	# 3	Compare
Few-Shot Audio Classification	ESC-50	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	63.40±0.39	# 8	Compare
Few-Shot Audio Classification	ESC-50	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	69.53±0.39	# 4	Compare
Few-Shot Audio Classification	ESC-50	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	37.76±0.34	# 10	Compare
Few-Shot Audio Classification	FSDKaggle2018	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.72±0.34	# 10	Compare
Few-Shot Audio Classification	FSDKaggle2018	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	39.11±0.41	# 6	Compare
Few-Shot Audio Classification	FSDKaggle2018	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	37.64±0.40	# 8	Compare
Few-Shot Audio Classification	NSynth	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	62.52±0.36	# 10	Compare
Few-Shot Audio Classification	NSynth	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	71.81±0.39	# 6	Compare
Few-Shot Audio Classification	NSynth	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	66.44±0.40	# 8	Compare
Few-Shot Audio Classification	Speech Accent Archive	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	26.16±0.34	# 2	Compare
Few-Shot Audio Classification	Speech Accent Archive	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	23.08±0.34	# 3	Compare
Few-Shot Audio Classification	Speech Accent Archive	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	28.92±0.37	# 1	Compare
Few-Shot Audio Classification	Speech Command v2	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	25.68±0.35	# 1	Compare
Few-Shot Audio Classification	Speech Command v2	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	20.08±0.37	# 3	Compare
Few-Shot Audio Classification	Speech Command v2	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	23.65±0.34	# 2	Compare
Few-Shot Audio Classification	VoxCeleb1	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	21.68±0.40	# 10	Compare
Few-Shot Audio Classification	VoxCeleb1	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	33.58±0.39	# 6	Compare
Few-Shot Audio Classification	VoxCeleb1	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	31.18±0.37	# 7	Compare
Few-Shot Audio Classification	Watkins Marine Mammal Sounds	MT-SLVR (SimCLR + MLAP) w/ Parallel Adapters (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	59.49±0.42	# 1	Compare
Few-Shot Audio Classification	Watkins Marine Mammal Sounds	SimCLR (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	52.91±0.41	# 3	Compare
Few-Shot Audio Classification	Watkins Marine Mammal Sounds	Multi-Label Augmentation Prediction (FSD50K, RN18)	Top-1 Accuracy(5-Way-1-Shot)	28.88±0.39	# 5	Compare

Methods

Add Remove

1x1 Convolution • Average Pooling • Batch Normalization • Bottleneck Residual Block • ColorJitter • Convolution • Dense Connections • Feedforward Network • Global Average Pooling • Kaiming Initialization • Max Pooling • NT-Xent • Random Gaussian Blur • Random Resized Crop • ReLU • Residual Block • Residual Connection • ResNet • SimCLR

Edit Social Preview

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove