TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Classification	CIFAR-10	AutoDropout	Percentage correct	96.8	# 94
Image Classification	CIFAR-10	WRN-28-10+AutoDropout+RandAugment	Percentage correct	97.9	# 57
Image Classification	CIFAR-10	WRN-28-10+AutoDropout+RandAugment	PARAMS	36.5M	# 221
Image Classification	cifar-10,4000	WRN-28-2 + UDA+AutoDropout	Percentage error	4.2	# 1
Image Classification	ImageNet	ResNet-50	Top 1 Accuracy	78.7%	# 746
Image Classification	ImageNet	ResNet-50+AutoDropout+RandAugment	Top 1 Accuracy	80.3%	# 649
Image Classification	ImageNet	ResNet-50+AutoDropout+RandAugment	Hardware Burden	None	# 1
Image Classification	ImageNet	ResNet-50+AutoDropout+RandAugment	Operations per network pass	None	# 1
Image Classification	ImageNet	EfficientNet-B0	Top 1 Accuracy	77.5%	# 805
Image Classification	ImageNet-10	ResNet-50 + UDA+AutoDropout	Top 1 Accuracy	72.9	# 1
Machine Translation	IWSLT2014 German-English	TransformerBase + AutoDropout	BLEU score	35.8	# 18
Language Modelling	Penn Treebank (Word Level)	Transformer-XL + AutoDropout	Validation perplexity	58.1	# 20
Language Modelling	Penn Treebank (Word Level)	Transformer-XL + AutoDropout	Test perplexity	54.9	# 23
Machine Translation	WMT2014 English-French	TransformerBase + AutoDropout	BLEU score	40	# 34
Machine Translation	WMT2014 English-French	TransformerBase + AutoDropout	Hardware Burden	None	# 1
Machine Translation	WMT2014 English-French	TransformerBase + AutoDropout	Operations per network pass	None	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/image-classification-on-cifar-104000)](https://paperswithcode.com/sota/image-classification-on-cifar-104000?p=autodropout-learning-dropout-patterns-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/image-classification-on-imagenet-10)](https://paperswithcode.com/sota/image-classification-on-imagenet-10?p=autodropout-learning-dropout-patterns-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/machine-translation-on-iwslt2014-german)](https://paperswithcode.com/sota/machine-translation-on-iwslt2014-german?p=autodropout-learning-dropout-patterns-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/language-modelling-on-penn-treebank-word)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word?p=autodropout-learning-dropout-patterns-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/machine-translation-on-wmt2014-english-french)](https://paperswithcode.com/sota/machine-translation-on-wmt2014-english-french?p=autodropout-learning-dropout-patterns-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/image-classification-on-cifar-10)](https://paperswithcode.com/sota/image-classification-on-cifar-10?p=autodropout-learning-dropout-patterns-to)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/autodropout-learning-dropout-patterns-to/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=autodropout-learning-dropout-patterns-to)`

AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

5 Jan 2021 · Hieu Pham, Quoc V. Le ·

Neural networks are often over-parameterized and hence benefit from aggressive regularization. Conventional regularization methods, such as Dropout or weight decay, do not leverage the structures of the network's inputs and hidden states. As a result, these conventional methods are less effective than methods that leverage the structures, such as SpatialDropout and DropBlock, which randomly drop the values at certain contiguous areas in the hidden states and setting them to zero. Although the locations of dropout areas random, the patterns of SpatialDropout and DropBlock are manually designed and fixed. Here we propose to learn the dropout patterns. In our method, a controller learns to generate a dropout pattern at every channel and layer of a target network, such as a ConvNet or a Transformer. The target network is then trained with the dropout pattern, and its resulting validation performance is used as a signal for the controller to learn from. We show that this method works well for both image recognition on CIFAR-10 and ImageNet, as well as language modeling on Penn Treebank and WikiText-2. The learned dropout patterns also transfers to different tasks and datasets, such as from language model on Penn Treebank to Engligh-French translation on WMT 2014. Our code will be available.

PDF Abstract

Code

Add Remove Mark official

google-research/google-research official

32,798

Tasks

Add Remove

Image Classification

Language Modelling

Machine Translation

Datasets

CIFAR-10

ImageNet

Penn Treebank

WikiText-2

WMT 2014

Results from the Paper

Edit

Ranked #1 on Image Classification on cifar-10,4000

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Classification	CIFAR-10	AutoDropout	Percentage correct	96.8	# 94	Compare
Image Classification	CIFAR-10	WRN-28-10+AutoDropout+RandAugment	Percentage correct	97.9	# 57	Compare
Image Classification	CIFAR-10	WRN-28-10+AutoDropout+RandAugment	PARAMS	36.5M	# 221	Compare
Image Classification	cifar-10,4000	WRN-28-2 + UDA+AutoDropout	Percentage error	4.2	# 1	Compare
Image Classification	ImageNet	ResNet-50	Top 1 Accuracy	78.7%	# 746	Compare
Image Classification	ImageNet	ResNet-50+AutoDropout+RandAugment	Top 1 Accuracy	80.3%	# 649	Compare
			Hardware Burden	None	# 1	Compare
			Operations per network pass	None	# 1	Compare
Image Classification	ImageNet	EfficientNet-B0	Top 1 Accuracy	77.5%	# 805	Compare
Image Classification	ImageNet-10	ResNet-50 + UDA+AutoDropout	Top 1 Accuracy	72.9	# 1	Compare
Machine Translation	IWSLT2014 German-English	TransformerBase + AutoDropout	BLEU score	35.8	# 18	Compare
Language Modelling	Penn Treebank (Word Level)	Transformer-XL + AutoDropout	Validation perplexity	58.1	# 20	Compare
Language Modelling	Penn Treebank (Word Level)	Transformer-XL + AutoDropout	Test perplexity	54.9	# 23	Compare
Machine Translation	WMT2014 English-French	TransformerBase + AutoDropout	BLEU score	40	# 34	Compare
			Hardware Burden	None	# 1	Compare
			Operations per network pass	None	# 1	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • AutoDropout • BPE • Dense Connections • DropBlock • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • SpatialDropout • Transformer

Edit Social Preview

AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove