TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Clustering	CIFAR-10	TEMI CLIP ViT-L (openai)	Accuracy	0.969	# 1
Image Clustering	CIFAR-10	TEMI CLIP ViT-L (openai)	NMI	0.926	# 1
Image Clustering	CIFAR-10	TEMI CLIP ViT-L (openai)	Train set	Train	# 1
Image Clustering	CIFAR-10	TEMI CLIP ViT-L (openai)	ARI	0.932	# 1
Image Clustering	CIFAR-10	TEMI CLIP ViT-L (openai)	Backbone	ViT-L	# 1
Image Clustering	CIFAR-10	TEMI DINO ViT-B	Accuracy	0.94.5	# 30
Image Clustering	CIFAR-10	TEMI DINO ViT-B	NMI	0.886	# 2
Image Clustering	CIFAR-10	TEMI DINO ViT-B	Train set	Train	# 1
Image Clustering	CIFAR-10	TEMI DINO ViT-B	ARI	0.885	# 2
Image Clustering	CIFAR-10	TEMI DINO ViT-B	Backbone	ViT-B	# 1
Image Clustering	CIFAR-100	TEMI CLIP ViT-L (openai)	Accuracy	0.737	# 1
Image Clustering	CIFAR-100	TEMI CLIP ViT-L (openai)	NMI	0.799	# 1
Image Clustering	CIFAR-100	TEMI CLIP ViT-L (openai)	Train Set	Train	# 1
Image Clustering	CIFAR-100	TEMI CLIP ViT-L (openai)	ARI	0.612	# 1
Image Clustering	CIFAR-100	TEMI DINO ViT-B	Accuracy	0.671	# 2
Image Clustering	CIFAR-100	TEMI DINO ViT-B	NMI	0.769	# 2
Image Clustering	CIFAR-100	TEMI DINO ViT-B	Train Set	Train	# 1
Image Clustering	CIFAR-100	TEMI DINO ViT-B	ARI	0.533	# 2
Image Clustering	ImageNet	TEMI MSN (ViT-L)	NMI	82.5	# 3
Image Clustering	ImageNet	TEMI MSN (ViT-L)	Accuracy	61.6	# 3
Image Clustering	ImageNet	TEMI MSN (ViT-L)	ARI	48.4	# 1
Image Clustering	ImageNet	TEMI DINO (ViT-B)	NMI	81.4	# 6
Image Clustering	ImageNet	TEMI DINO (ViT-B)	Accuracy	58.0	# 4
Image Clustering	ImageNet	TEMI DINO (ViT-B)	ARI	45.9	# 2
Image Clustering	ImageNet-100	TEMI CLIP ViT-L (openai)	NMI	0.9006	# 1
Image Clustering	ImageNet-100	TEMI CLIP ViT-L (openai)	ACCURACY	0.8343	# 1
Image Clustering	ImageNet-100	TEMI CLIP ViT-L (openai)	ARI	0.7581	# 1
Image Clustering	ImageNet-100	TEMI DINO ViT-B	NMI	0.8565	# 3
Image Clustering	ImageNet-100	TEMI DINO ViT-B	ACCURACY	0.7505	# 3
Image Clustering	ImageNet-100	TEMI DINO ViT-B	ARI	0.6545	# 3
Image Clustering	ImageNet-100	TEMI MSN ViT-L	NMI	0.8853	# 2
Image Clustering	ImageNet-100	TEMI MSN ViT-L	ACCURACY	0.8286	# 2
Image Clustering	ImageNet-100	TEMI MSN ViT-L	ARI	0.7408	# 2
Image Clustering	ImageNet-200	TEMI MSN ViT-L	NMI	0.8665	# 2
Image Clustering	ImageNet-200	TEMI MSN ViT-L	ACCURACY	0.77.96	# 5
Image Clustering	ImageNet-200	TEMI MSN ViT-L	ARI	0.667	# 2
Image Clustering	ImageNet-200	TEMI DINO ViT-B	NMI	0.852	# 3
Image Clustering	ImageNet-200	TEMI DINO ViT-B	ACCURACY	0.7312	# 2
Image Clustering	ImageNet-200	TEMI DINO ViT-B	ARI	0.6231	# 3
Image Clustering	ImageNet-200	TEMI CLIP ViT-L (openai)	NMI	0.8839	# 1
Image Clustering	ImageNet-200	TEMI CLIP ViT-L (openai)	ACCURACY	0.7776	# 1
Image Clustering	ImageNet-200	TEMI CLIP ViT-L (openai)	ARI	0.6941	# 1
Image Clustering	ImageNet-50	TEMI DINO ViT-B	NMI	0.8610	# 3
Image Clustering	ImageNet-50	TEMI DINO ViT-B	ACCURACY	0.801	# 4
Image Clustering	ImageNet-50	TEMI DINO ViT-B	ARI	0.7093	# 4
Image Clustering	ImageNet-50	TEMI CLIP ViT-L (openai)	NMI	0.9232	# 1
Image Clustering	ImageNet-50	TEMI CLIP ViT-L (openai)	ACCURACY	0.8827	# 1
Image Clustering	ImageNet-50	TEMI CLIP ViT-L (openai)	ARI	0.8272	# 1
Image Clustering	ImageNet-50	TEMI MSN ViT-L	NMI	0.8814	# 2
Image Clustering	ImageNet-50	TEMI MSN ViT-L	ACCURACY	0.8487	# 2
Image Clustering	ImageNet-50	TEMI MSN ViT-L	ARI	0.7646	# 2
Image Clustering	STL-10	TEMI DINO ViT-B	Accuracy	0.985	# 1
Image Clustering	STL-10	TEMI DINO ViT-B	NMI	0.965	# 1
Image Clustering	STL-10	TEMI DINO ViT-B	Train Split	Train	# 1
Image Clustering	STL-10	TEMI DINO ViT-B	ARI	0.968	# 1
Image Clustering	STL-10	TEMI DINO ViT-B	Backbone	ViT-B	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-cifar-10)](https://paperswithcode.com/sota/image-clustering-on-cifar-10?p=exploring-the-limits-of-deep-image-clustering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-cifar-100)](https://paperswithcode.com/sota/image-clustering-on-cifar-100?p=exploring-the-limits-of-deep-image-clustering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-imagenet-100)](https://paperswithcode.com/sota/image-clustering-on-imagenet-100?p=exploring-the-limits-of-deep-image-clustering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-imagenet-200)](https://paperswithcode.com/sota/image-clustering-on-imagenet-200?p=exploring-the-limits-of-deep-image-clustering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-imagenet-50-1)](https://paperswithcode.com/sota/image-clustering-on-imagenet-50-1?p=exploring-the-limits-of-deep-image-clustering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-stl-10)](https://paperswithcode.com/sota/image-clustering-on-stl-10?p=exploring-the-limits-of-deep-image-clustering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-the-limits-of-deep-image-clustering/image-clustering-on-imagenet)](https://paperswithcode.com/sota/image-clustering-on-imagenet?p=exploring-the-limits-of-deep-image-clustering)`

Exploring the Limits of Deep Image Clustering using Pretrained Models

31 Mar 2023 · Nikolas Adaloglou, Felix Michels, Hamza Kalisch, Markus Kollmann ·

We present a general methodology that learns to classify images without labels by leveraging pretrained feature extractors. Our approach involves self-distillation training of clustering heads based on the fact that nearest neighbours in the pretrained feature space are likely to share the same label. We propose a novel objective that learns associations between image features by introducing a variant of pointwise mutual information together with instance weighting. We demonstrate that the proposed objective is able to attenuate the effect of false positive pairs while efficiently exploiting the structure in the pretrained feature space. As a result, we improve the clustering accuracy over $k$-means on $17$ different pretrained models by $6.1$\% and $12.2$\% on ImageNet and CIFAR100, respectively. Finally, using self-supervised vision transformers, we achieve a clustering accuracy of $61.6$\% on ImageNet. The code is available at https://github.com/HHU-MMBS/TEMI-official-BMVC2023.

PDF Abstract

Code

Add Remove Mark official

HHU-MMBS/TEMI-official-BMVC2023 official

Tasks

Add Remove

Clustering

Image Clustering

Datasets

CIFAR-10

ImageNet

CIFAR-100

STL-10

Results from the Paper

Edit

Ranked #1 on Image Clustering on CIFAR-10 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Clustering	CIFAR-10	TEMI CLIP ViT-L (openai)	Accuracy	0.969	# 1	Compare
			NMI	0.926	# 1	Compare
			Train set	Train	# 1	Compare
			ARI	0.932	# 1	Compare
			Backbone	ViT-L	# 1	Compare
Image Clustering	CIFAR-10	TEMI DINO ViT-B	Accuracy	0.94.5	# 30	Compare
			NMI	0.886	# 2	Compare
			Train set	Train	# 1	Compare
			ARI	0.885	# 2	Compare
			Backbone	ViT-B	# 1	Compare
Image Clustering	CIFAR-100	TEMI CLIP ViT-L (openai)	Accuracy	0.737	# 1	Compare
			NMI	0.799	# 1	Compare
			Train Set	Train	# 1	Compare
			ARI	0.612	# 1	Compare
Image Clustering	CIFAR-100	TEMI DINO ViT-B	Accuracy	0.671	# 2	Compare
			NMI	0.769	# 2	Compare
			Train Set	Train	# 1	Compare
			ARI	0.533	# 2	Compare
Image Clustering	ImageNet	TEMI MSN (ViT-L)	NMI	82.5	# 3	Compare
			Accuracy	61.6	# 3	Compare
			ARI	48.4	# 1	Compare
Image Clustering	ImageNet	TEMI DINO (ViT-B)	NMI	81.4	# 6	Compare
			Accuracy	58.0	# 4	Compare
			ARI	45.9	# 2	Compare
Image Clustering	ImageNet-100	TEMI CLIP ViT-L (openai)	NMI	0.9006	# 1	Compare
			ACCURACY	0.8343	# 1	Compare
			ARI	0.7581	# 1	Compare
Image Clustering	ImageNet-100	TEMI DINO ViT-B	NMI	0.8565	# 3	Compare
			ACCURACY	0.7505	# 3	Compare
			ARI	0.6545	# 3	Compare
Image Clustering	ImageNet-100	TEMI MSN ViT-L	NMI	0.8853	# 2	Compare
			ACCURACY	0.8286	# 2	Compare
			ARI	0.7408	# 2	Compare
Image Clustering	ImageNet-200	TEMI MSN ViT-L	NMI	0.8665	# 2	Compare
			ACCURACY	0.77.96	# 5	Compare
			ARI	0.667	# 2	Compare
Image Clustering	ImageNet-200	TEMI DINO ViT-B	NMI	0.852	# 3	Compare
			ACCURACY	0.7312	# 2	Compare
			ARI	0.6231	# 3	Compare
Image Clustering	ImageNet-200	TEMI CLIP ViT-L (openai)	NMI	0.8839	# 1	Compare
			ACCURACY	0.7776	# 1	Compare
			ARI	0.6941	# 1	Compare
Image Clustering	ImageNet-50	TEMI DINO ViT-B	NMI	0.8610	# 3	Compare
			ACCURACY	0.801	# 4	Compare
			ARI	0.7093	# 4	Compare
Image Clustering	ImageNet-50	TEMI CLIP ViT-L (openai)	NMI	0.9232	# 1	Compare
			ACCURACY	0.8827	# 1	Compare
			ARI	0.8272	# 1	Compare
Image Clustering	ImageNet-50	TEMI MSN ViT-L	NMI	0.8814	# 2	Compare
			ACCURACY	0.8487	# 2	Compare
			ARI	0.7646	# 2	Compare
Image Clustering	STL-10	TEMI DINO ViT-B	Accuracy	0.985	# 1	Compare
			NMI	0.965	# 1	Compare
			Train Split	Train	# 1	Compare
			ARI	0.968	# 1	Compare
			Backbone	ViT-B	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Exploring the Limits of Deep Image Clustering using Pretrained Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove