TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-B/16)	Top 1 Accuracy	76.7%	# 55
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-B/16)	Number of Params	86M	# 35
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-BN-L/7)	Top 1 Accuracy	81.0%	# 19
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-BN-L/7)	Number of Params	304M	# 25
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-L)	Top 1 Accuracy	77.6%	# 49
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-L)	Number of Params	307M	# 16
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-BN-H)	Top 1 Accuracy	79.1%	# 36
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-H)	Top 1 Accuracy	78.1%	# 46
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-H)	Number of Params	632M	# 6
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-H）	Number of Params	632M	# 6
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-L/16)	Number of Params	304M	# 23
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-L/16)	Top 1 Accuracy	84.1%	# 35
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-B/16)	Number of Params	86M	# 36
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-B/16)	Top 1 Accuracy	83.2%	# 44
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ViT-B/16, linear probing)	IN-W Gap	-16.0	# 1
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ViT-B/16, linear probing)	Carton Gap	+22	# 1
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ResNet-50, linear probing)	IN-W Gap	-20.7	# 1
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ResNet-50, linear probing)	Carton Gap	+44	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-empirical-study-of-training-self/out-of-distribution-generalization-on-1)](https://paperswithcode.com/sota/out-of-distribution-generalization-on-1?p=an-empirical-study-of-training-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-empirical-study-of-training-self/self-supervised-image-classification-on)](https://paperswithcode.com/sota/self-supervised-image-classification-on?p=an-empirical-study-of-training-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-empirical-study-of-training-self/self-supervised-image-classification-on-1)](https://paperswithcode.com/sota/self-supervised-image-classification-on-1?p=an-empirical-study-of-training-self)`

An Empirical Study of Training Self-Supervised Vision Transformers

ICCV 2021 · Xinlei Chen, Saining Xie, Kaiming He ·

This paper does not describe a novel method. Instead, it studies a straightforward, incremental, yet must-know baseline given the recent progress in computer vision: self-supervised learning for Vision Transformers (ViT). While the training recipes for standard convolutional networks have been highly mature and robust, the recipes for ViT are yet to be built, especially in the self-supervised scenarios where training becomes more challenging. In this work, we go back to basics and investigate the effects of several fundamental components for training self-supervised ViT. We observe that instability is a major issue that degrades accuracy, and it can be hidden by apparently good results. We reveal that these results are indeed partial failure, and they can be improved when training is made more stable. We benchmark ViT results in MoCo v3 and several other self-supervised frameworks, with ablations in various aspects. We discuss the currently positive evidence as well as challenges and open questions. We hope that this work will provide useful data points and experience for future research.

PDF Abstract ICCV 2021 PDF ICCV 2021 Abstract

Code

Add Remove Mark official

facebookresearch/moco-v3 official

1,144

open-mmlab/mmselfsup

3,083

Westlake-AI/openmixup

570

oneflow-inc/libai

376

xiyue-wang/transpath

210

See all 8 implementations

Tasks

Add Remove

Out-of-Distribution Generalization

Self-Supervised Image Classification

Self-Supervised Learning

Datasets

ImageNet

ImageNet-W

Results from the Paper

Edit

Ranked #1 on Out-of-Distribution Generalization on ImageNet-W

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-B/16)	Top 1 Accuracy	76.7%	# 55	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-B/16)	Number of Params	86M	# 35	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-BN-L/7)	Top 1 Accuracy	81.0%	# 19	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-BN-L/7)	Number of Params	304M	# 25	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-L)	Top 1 Accuracy	77.6%	# 49	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-L)	Number of Params	307M	# 16	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-BN-H)	Top 1 Accuracy	79.1%	# 36	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-H)	Top 1 Accuracy	78.1%	# 46	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-H)	Number of Params	632M	# 6	Compare
Self-Supervised Image Classification	ImageNet	MoCo v3 (ViT-H）	Number of Params	632M	# 6	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-L/16)	Number of Params	304M	# 23	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-L/16)	Top 1 Accuracy	84.1%	# 35	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-B/16)	Number of Params	86M	# 36	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MoCo v3 (ViT-B/16)	Top 1 Accuracy	83.2%	# 44	Compare
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ViT-B/16, linear probing)	IN-W Gap	-16.0	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ViT-B/16, linear probing)	Carton Gap	+22	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ResNet-50, linear probing)	IN-W Gap	-20.7	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MoCov3 (ResNet-50, linear probing)	Carton Gap	+44	# 1	Compare

Methods

Add Remove

Batch Normalization • InfoNCE • MoCo • MoCo v3

Edit Social Preview

An Empirical Study of Training Self-Supervised Vision Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove