TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Incremental Learning	ImageNet100 - 10 steps	DyTox	Average Incremental Accuracy	77.15	# 7
Incremental Learning	ImageNet100 - 10 steps	DyTox	Final Accuracy	69.10	# 1
Incremental Learning	ImageNet100 - 10 steps	DyTox	Average Incremental Accuracy Top-5	92.04	# 5
Incremental Learning	ImageNet100 - 10 steps	DyTox	Final Accuracy Top-5	87.98	# 3
Incremental Learning	ImageNet100 - 10 steps	DyTox	# M Params	11.01	# 1
Incremental Learning	ImageNet - 10 steps	DyTox	Average Incremental Accuracy	71.29	# 2
Incremental Learning	ImageNet - 10 steps	DyTox	Final Accuracy	63.34	# 1
Incremental Learning	ImageNet - 10 steps	DyTox	Average Incremental Accuracy Top-5	88.59	# 1
Incremental Learning	ImageNet - 10 steps	DyTox	Final Accuracy Top-5	84.49	# 1
Incremental Learning	ImageNet - 10 steps	DyTox	# M Params	11.36	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dytox-transformers-for-continual-learning/incremental-learning-on-imagenet-10-steps)](https://paperswithcode.com/sota/incremental-learning-on-imagenet-10-steps?p=dytox-transformers-for-continual-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dytox-transformers-for-continual-learning/incremental-learning-on-imagenet100-10-steps)](https://paperswithcode.com/sota/incremental-learning-on-imagenet100-10-steps?p=dytox-transformers-for-continual-learning)`

DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion

CVPR 2022 · Arthur Douillard, Alexandre Ramé, Guillaume Couairon, Matthieu Cord ·

Deep network architectures struggle to continually learn new tasks without forgetting the previous tasks. A recent trend indicates that dynamic architectures based on an expansion of the parameters can reduce catastrophic forgetting efficiently in continual learning. However, existing approaches often require a task identifier at test-time, need complex tuning to balance the growing number of parameters, and barely share any information across tasks. As a result, they struggle to scale to a large number of tasks without significant overhead. In this paper, we propose a transformer architecture based on a dedicated encoder/decoder framework. Critically, the encoder and decoder are shared among all tasks. Through a dynamic expansion of special tokens, we specialize each forward of our decoder network on a task distribution. Our strategy scales to a large number of tasks while having negligible memory and time overheads due to strict control of the parameters expansion. Moreover, this efficient strategy doesn't need any hyperparameter tuning to control the network's expansion. Our model reaches excellent results on CIFAR100 and state-of-the-art performances on the large-scale ImageNet100 and ImageNet1000 while having less parameters than concurrent dynamic frameworks.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

arthurdouillard/dytox official

134

Tasks

Add Remove

Class Incremental Learning

Continual Learning

Decoder

Incremental Learning

Datasets

ImageNet

CIFAR-100

Results from the Paper

Edit

Ranked #2 on Incremental Learning on ImageNet - 10 steps

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Incremental Learning	ImageNet100 - 10 steps	DyTox	Average Incremental Accuracy	77.15	# 7	Compare
			Final Accuracy	69.10	# 1	Compare
			Average Incremental Accuracy Top-5	92.04	# 5	Compare
			Final Accuracy Top-5	87.98	# 3	Compare
			# M Params	11.01	# 1	Compare
Incremental Learning	ImageNet - 10 steps	DyTox	Average Incremental Accuracy	71.29	# 2	Compare
			Final Accuracy	63.34	# 1	Compare
			Average Incremental Accuracy Top-5	88.59	# 1	Compare
			Final Accuracy Top-5	84.49	# 1	Compare
			# M Params	11.36	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove