TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Large)	Top 1 Accuracy	83.3%	# 4
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Small)	Top 1 Accuracy	77.1%	# 14
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Huge)	Top 5 Accuracy	96.6%	# 1
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Huge)	Top 1 Accuracy	84.3%	# 3
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Base)	Top 1 Accuracy	79.7%	# 8
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Large)	Top 1 Accuracy	77.3%	# 4
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Huge)	Top 5 Accuracy	93.1	# 2
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Huge)	Top 1 Accuracy	80%	# 3
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Base)	Top 1 Accuracy	71%	# 13

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/semi-supervised-vision-transformers-at-scale/semi-supervised-image-classification-on-2)](https://paperswithcode.com/sota/semi-supervised-image-classification-on-2?p=semi-supervised-vision-transformers-at-scale)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/semi-supervised-vision-transformers-at-scale/semi-supervised-image-classification-on-1)](https://paperswithcode.com/sota/semi-supervised-image-classification-on-1?p=semi-supervised-vision-transformers-at-scale)`

Semi-supervised Vision Transformers at Scale

11 Aug 2022 · Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto ·

We study semi-supervised learning (SSL) for vision transformers (ViT), an under-explored topic despite the wide adoption of the ViT architectures to different tasks. To tackle this problem, we propose a new SSL pipeline, consisting of first un/self-supervised pre-training, followed by supervised fine-tuning, and finally semi-supervised fine-tuning. At the semi-supervised fine-tuning stage, we adopt an exponential moving average (EMA)-Teacher framework instead of the popular FixMatch, since the former is more stable and delivers higher accuracy for semi-supervised vision transformers. In addition, we propose a probabilistic pseudo mixup mechanism to interpolate unlabeled samples and their pseudo labels for improved regularization, which is important for training ViTs with weak inductive bias. Our proposed method, dubbed Semi-ViT, achieves comparable or better performance than the CNN counterparts in the semi-supervised classification setting. Semi-ViT also enjoys the scalability benefits of ViTs that can be readily scaled up to large-size models with increasing accuracies. For example, Semi-ViT-Huge achieves an impressive 80% top-1 accuracy on ImageNet using only 1% labels, which is comparable with Inception-v4 using 100% ImageNet labels.

PDF Abstract

Code

Add Remove Mark official

amazon-science/semi-vit

Tasks

Add Remove

Inductive Bias

Semi-Supervised Image Classification

Datasets

ImageNet

Food-101

Results from the Paper

Edit

Ranked #3 on Semi-Supervised Image Classification on ImageNet - 10% labeled data

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Large)	Top 1 Accuracy	83.3%	# 4	Compare
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Small)	Top 1 Accuracy	77.1%	# 14	Compare
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Huge)	Top 5 Accuracy	96.6%	# 1	Compare
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Huge)	Top 1 Accuracy	84.3%	# 3	Compare
Semi-Supervised Image Classification	ImageNet - 10% labeled data	Semi-ViT (ViT-Base)	Top 1 Accuracy	79.7%	# 8	Compare
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Large)	Top 1 Accuracy	77.3%	# 4	Compare
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Huge)	Top 5 Accuracy	93.1	# 2	Compare
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Huge)	Top 1 Accuracy	80%	# 3	Compare
Semi-Supervised Image Classification	ImageNet - 1% labeled data	Semi-ViT (ViT-Base)	Top 1 Accuracy	71%	# 13	Compare

Methods

Add Remove

1x1 Convolution • Average Pooling • Convolution • Dropout • FixMatch • Inception-A • Inception-B • Inception-C • Inception-v4 • Max Pooling • Mixup • Reduction-A • Reduction-B • Softmax

Edit Social Preview

Semi-supervised Vision Transformers at Scale

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove