TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Clustering	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	NMI	87.2	# 1
Image Clustering	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	Accuracy	67.3	# 1
Image Clustering	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	ARI	42.2	# 4
Image Clustering	ImageNet	MIM-Refiner (MAE-ViT-H/14)	NMI	85.3	# 2
Image Clustering	ImageNet	MIM-Refiner (MAE-ViT-H/14)	Accuracy	64.6	# 2
Image Clustering	ImageNet	MIM-Refiner (MAE-ViT-H/14)	ARI	45.5	# 3
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-L/16)	Top 1 Accuracy	82.8%	# 9
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-L/16)	Number of Params	307M	# 16
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-L/16)	Top 1 Accuracy	83.5%	# 8
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-L/16)	Number of Params	307M	# 16
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-H/14	Top 1 Accuracy	83.7%	# 7
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-H/14	Number of Params	632M	# 6
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-2B/14)	Top 1 Accuracy	84.5%	# 5
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-2B/14)	Number of Params	1890M	# 2
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	Top 1 Accuracy	84.7%	# 4
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	Number of Params	632M	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mim-refiner-a-contrastive-learning-boost-from/image-clustering-on-imagenet)](https://paperswithcode.com/sota/image-clustering-on-imagenet?p=mim-refiner-a-contrastive-learning-boost-from)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mim-refiner-a-contrastive-learning-boost-from/self-supervised-image-classification-on)](https://paperswithcode.com/sota/self-supervised-image-classification-on?p=mim-refiner-a-contrastive-learning-boost-from)`

MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations

15 Feb 2024 · Benedikt Alkin, Lukas Miklautz, Sepp Hochreiter, Johannes Brandstetter ·

We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. The motivation behind MIM-Refiner is rooted in the insight that optimal representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to diverse intermediate layers. In each head, a modified nearest neighbor objective helps to construct respective semantic clusters. The refinement process is short but effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, achieves new state-of-the-art results in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. In ImageNet-1K 1-shot classification, MIM-Refiner sets a new state-of-the-art of 64.2%, outperforming larger models that were trained on up to 2000x more data such as DINOv2-g, OpenCLIP-G and MAWS-6.5B. Project page: https://ml-jku.github.io/MIM-Refiner

PDF Abstract

Code

Add Remove Mark official

ml-jku/MIM-Refiner official

Tasks

Add Remove

Contrastive Learning

Image Clustering

Self-Supervised Image Classification

Datasets

ImageNet

iNaturalist

Results from the Paper

Add Remove

Ranked #1 on Image Clustering on ImageNet

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Clustering	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	NMI	87.2	# 1	Compare
			Accuracy	67.3	# 1	Compare
			ARI	42.2	# 4	Compare
Image Clustering	ImageNet	MIM-Refiner (MAE-ViT-H/14)	NMI	85.3	# 2	Compare
			Accuracy	64.6	# 2	Compare
			ARI	45.5	# 3	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-L/16)	Top 1 Accuracy	82.8%	# 9	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-L/16)	Number of Params	307M	# 16	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-L/16)	Top 1 Accuracy	83.5%	# 8	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-L/16)	Number of Params	307M	# 16	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-H/14	Top 1 Accuracy	83.7%	# 7	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-H/14	Number of Params	632M	# 6	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-2B/14)	Top 1 Accuracy	84.5%	# 5	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (MAE-ViT-2B/14)	Number of Params	1890M	# 2	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	Top 1 Accuracy	84.7%	# 4	Compare
Self-Supervised Image Classification	ImageNet	MIM-Refiner (D2V2-ViT-H/14)	Number of Params	632M	# 6	Compare

Methods

Add Remove

Contrastive Learning • MIM

Edit Social Preview

MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove