TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	TransNeXt-Tiny (IN-1K pretrain, Mask2Former, 512)	Validation mIoU	53.4	# 76
Semantic Segmentation	ADE20K	TransNeXt-Tiny (IN-1K pretrain, Mask2Former, 512)	Params (M)	47.5	# 50
Semantic Segmentation	ADE20K	TransNeXt-Base (IN-1K pretrain, Mask2Former, 512)	Validation mIoU	54.7	# 49
Semantic Segmentation	ADE20K	TransNeXt-Base (IN-1K pretrain, Mask2Former, 512)	Params (M)	109	# 28
Semantic Segmentation	ADE20K	TransNeXt-Small (IN-1K pretrain, Mask2Former, 512)	Validation mIoU	54.1	# 61
Semantic Segmentation	ADE20K	TransNeXt-Small (IN-1K pretrain, Mask2Former, 512)	Params (M)	69	# 38
Object Detection	COCO minival	TransNeXt-Base (IN-1K pretrain, DINO 1x)	box AP	57.1	# 39
Object Detection	COCO minival	TransNeXt-Small (IN-1K pretrain, DINO 1x)	box AP	56.6	# 42
Object Detection	COCO minival	TransNeXt-Tiny (IN-1K pretrain, DINO 1x)	box AP	55.7	# 46
Image Classification	ImageNet	TransNeXt-Tiny (IN-1K supervised, 224)	Top 1 Accuracy	84.0%	# 337
Image Classification	ImageNet	TransNeXt-Tiny (IN-1K supervised, 224)	Number of params	28.2M	# 638
Image Classification	ImageNet	TransNeXt-Tiny (IN-1K supervised, 224)	GFLOPs	5.7	# 237
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 224)	Top 1 Accuracy	84.7%	# 282
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 224)	Number of params	49.7M	# 723
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 224)	GFLOPs	10.3	# 300
Image Classification	ImageNet	TransNeXt-Micro (IN-1K supervised, 224)	Top 1 Accuracy	82.5%	# 483
Image Classification	ImageNet	TransNeXt-Micro (IN-1K supervised, 224)	Number of params	12.8M	# 504
Image Classification	ImageNet	TransNeXt-Micro (IN-1K supervised, 224)	GFLOPs	2.7	# 167
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 384)	Top 1 Accuracy	86.0%	# 177
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 384)	Number of params	49.7M	# 723
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 384)	GFLOPs	32.1	# 397
Image Classification	ImageNet	TransNeXt-Base (IN-1K supervised, 384)	Top 1 Accuracy	86.2%	# 165
Image Classification	ImageNet	TransNeXt-Base (IN-1K supervised, 384)	Number of params	89.7M	# 847
Image Classification	ImageNet	TransNeXt-Base (IN-1K supervised, 384)	GFLOPs	56.3	# 431
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 384)	Top-1 accuracy %	61.6	# 15
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 384)	Number of params	89.7M	# 9
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 384)	Top-1 accuracy %	58.3	# 16
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 384)	Number of params	49.7M	# 11
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 224)	Top-1 accuracy %	47.1	# 21
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 224)	Number of params	49.7M	# 11
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 224)	Top-1 accuracy %	50.6	# 19
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 224)	Number of params	89.7M	# 9

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transnext-robust-foveal-visual-perception-for/domain-generalization-on-imagenet-a)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-a?p=transnext-robust-foveal-visual-perception-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transnext-robust-foveal-visual-perception-for/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=transnext-robust-foveal-visual-perception-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transnext-robust-foveal-visual-perception-for/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=transnext-robust-foveal-visual-perception-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/transnext-robust-foveal-visual-perception-for/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=transnext-robust-foveal-visual-perception-for)`

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

28 Nov 2023 · Dai Shi ·

Due to the depth degradation effect in residual connections, many efficient Vision Transformers models that rely on stacking layers for information exchange often fail to form sufficient information mixing, leading to unnatural visual perception. To address this issue, in this paper, we propose Aggregated Attention, a biomimetic design-based token mixer that simulates biological foveal vision and continuous eye movement while enabling each token on the feature map to have a global perception. Furthermore, we incorporate learnable tokens that interact with conventional queries and keys, which further diversifies the generation of affinity matrices beyond merely relying on the similarity between queries and keys. Our approach does not rely on stacking for information exchange, thus effectively avoiding depth degradation and achieving natural visual perception. Additionally, we propose Convolutional GLU, a channel mixer that bridges the gap between GLU and SE mechanism, which empowers each token to have channel attention based on its nearest neighbor image features, enhancing local modeling capability and model robustness. We combine aggregated attention and convolutional GLU to create a new visual backbone called TransNeXt. Extensive experiments demonstrate that our TransNeXt achieves state-of-the-art performance across multiple model sizes. At a resolution of $224^2$, TransNeXt-Tiny attains an ImageNet accuracy of 84.0%, surpassing ConvNeXt-B with 69% fewer parameters. Our TransNeXt-Base achieves an ImageNet accuracy of 86.2% and an ImageNet-A accuracy of 61.6% at a resolution of $384^2$, a COCO object detection mAP of 57.1, and an ADE20K semantic segmentation mIoU of 54.7.

PDF Abstract

Code

Add Remove Mark official

daishiresearch/transnext official

216

Westlake-AI/openmixup

577

Tasks

Add Remove

Classification

Domain Generalization

Image Classification

object-detection

Object Detection

Semantic Segmentation

Datasets

ImageNet

MS COCO

CIFAR-100

ADE20K

ImageNet-C

ImageNet-A

ImageNet-Sketch

Results from the Paper

Edit

Ranked #15 on Domain Generalization on ImageNet-A

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	TransNeXt-Tiny (IN-1K pretrain, Mask2Former, 512)	Validation mIoU	53.4	# 76	Compare
Semantic Segmentation	ADE20K	TransNeXt-Tiny (IN-1K pretrain, Mask2Former, 512)	Params (M)	47.5	# 50	Compare
Semantic Segmentation	ADE20K	TransNeXt-Base (IN-1K pretrain, Mask2Former, 512)	Validation mIoU	54.7	# 49	Compare
Semantic Segmentation	ADE20K	TransNeXt-Base (IN-1K pretrain, Mask2Former, 512)	Params (M)	109	# 28	Compare
Semantic Segmentation	ADE20K	TransNeXt-Small (IN-1K pretrain, Mask2Former, 512)	Validation mIoU	54.1	# 61	Compare
Semantic Segmentation	ADE20K	TransNeXt-Small (IN-1K pretrain, Mask2Former, 512)	Params (M)	69	# 38	Compare
Object Detection	COCO minival	TransNeXt-Base (IN-1K pretrain, DINO 1x)	box AP	57.1	# 39	Compare
Object Detection	COCO minival	TransNeXt-Small (IN-1K pretrain, DINO 1x)	box AP	56.6	# 42	Compare
Object Detection	COCO minival	TransNeXt-Tiny (IN-1K pretrain, DINO 1x)	box AP	55.7	# 46	Compare
Image Classification	ImageNet	TransNeXt-Tiny (IN-1K supervised, 224)	Top 1 Accuracy	84.0%	# 337	Compare
			Number of params	28.2M	# 638	Compare
			GFLOPs	5.7	# 237	Compare
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 224)	Top 1 Accuracy	84.7%	# 282	Compare
			Number of params	49.7M	# 723	Compare
			GFLOPs	10.3	# 300	Compare
Image Classification	ImageNet	TransNeXt-Micro (IN-1K supervised, 224)	Top 1 Accuracy	82.5%	# 483	Compare
			Number of params	12.8M	# 504	Compare
			GFLOPs	2.7	# 167	Compare
Image Classification	ImageNet	TransNeXt-Small (IN-1K supervised, 384)	Top 1 Accuracy	86.0%	# 177	Compare
			Number of params	49.7M	# 723	Compare
			GFLOPs	32.1	# 397	Compare
Image Classification	ImageNet	TransNeXt-Base (IN-1K supervised, 384)	Top 1 Accuracy	86.2%	# 165	Compare
			Number of params	89.7M	# 847	Compare
			GFLOPs	56.3	# 431	Compare
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 384)	Top-1 accuracy %	61.6	# 15	Compare
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 384)	Number of params	89.7M	# 9	Compare
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 384)	Top-1 accuracy %	58.3	# 16	Compare
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 384)	Number of params	49.7M	# 11	Compare
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 224)	Top-1 accuracy %	47.1	# 21	Compare
Domain Generalization	ImageNet-A	TransNeXt-Small (IN-1K supervised, 224)	Number of params	49.7M	# 11	Compare
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 224)	Top-1 accuracy %	50.6	# 19	Compare
Domain Generalization	ImageNet-A	TransNeXt-Base (IN-1K supervised, 224)	Number of params	89.7M	# 9	Compare

Methods

Add Remove

Channel attention • GLU

Edit Social Preview

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove