TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Object Tracking	GOT-10k	DropMAE	Average Overlap	75.9	# 6
Visual Object Tracking	GOT-10k	DropMAE	Success Rate 0.5	86.8	# 3
Visual Object Tracking	GOT-10k	DropMAE	Success Rate 0.75	72	# 8
Visual Object Tracking	ITB	DropTrack	AUC	0.65	# 1
Visual Object Tracking	LaSOT	DropTrack	AUC	71.8	# 11
Visual Object Tracking	LaSOT	DropTrack	Normalized Precision	81.8	# 4
Visual Object Tracking	LaSOT	DropTrack	Precision	78.1	# 8
Visual Object Tracking	LaSOT-ext	DropTrack	AUC	52.7	# 5
Visual Object Tracking	LaSOT-ext	DropTrack	Precision	60.2	# 2
Visual Object Tracking	TNL2K	DropTrack	precision	57.9	# 2
Visual Object Tracking	TNL2K	DropTrack	AUC	0.569	# 7
Visual Object Tracking	TrackingNet	DropTrack	Normalized Precision	88.9	# 7
Visual Object Tracking	TrackingNet	DropTrack	AUC	0.841	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dropmae-masked-autoencoders-with-spatial/visual-object-tracking-on-itb)](https://paperswithcode.com/sota/visual-object-tracking-on-itb?p=dropmae-masked-autoencoders-with-spatial)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dropmae-masked-autoencoders-with-spatial/visual-object-tracking-on-trackingnet)](https://paperswithcode.com/sota/visual-object-tracking-on-trackingnet?p=dropmae-masked-autoencoders-with-spatial)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dropmae-masked-autoencoders-with-spatial/visual-object-tracking-on-lasot-ext)](https://paperswithcode.com/sota/visual-object-tracking-on-lasot-ext?p=dropmae-masked-autoencoders-with-spatial)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dropmae-masked-autoencoders-with-spatial/visual-object-tracking-on-got-10k)](https://paperswithcode.com/sota/visual-object-tracking-on-got-10k?p=dropmae-masked-autoencoders-with-spatial)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dropmae-masked-autoencoders-with-spatial/visual-object-tracking-on-tnl2k)](https://paperswithcode.com/sota/visual-object-tracking-on-tnl2k?p=dropmae-masked-autoencoders-with-spatial)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dropmae-masked-autoencoders-with-spatial/visual-object-tracking-on-lasot)](https://paperswithcode.com/sota/visual-object-tracking-on-lasot?p=dropmae-masked-autoencoders-with-spatial)`

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks

CVPR 2023 · Qiangqiang Wu, Tianyu Yang, Ziquan Liu, Baoyuan Wu, Ying Shan, Antoni B. Chan ·

In this paper, we study masked autoencoder (MAE) pretraining on videos for matching-based downstream tasks, including visual object tracking (VOT) and video object segmentation (VOS). A simple extension of MAE is to randomly mask out frame patches in videos and reconstruct the frame pixels. However, we find that this simple baseline heavily relies on spatial cues while ignoring temporal relations for frame reconstruction, thus leading to sub-optimal temporal matching representations for VOT and VOS. To alleviate this problem, we propose DropMAE, which adaptively performs spatial-attention dropout in the frame reconstruction to facilitate temporal correspondence learning in videos. We show that our DropMAE is a strong and efficient temporal matching learner, which achieves better finetuning results on matching-based tasks than the ImageNetbased MAE with 2X faster pre-training speed. Moreover, we also find that motion diversity in pre-training videos is more important than scene diversity for improving the performance on VOT and VOS. Our pre-trained DropMAE model can be directly loaded in existing ViT-based trackers for fine-tuning without further modifications. Notably, DropMAE sets new state-of-the-art performance on 8 out of 9 highly competitive video tracking and segmentation datasets. Our code and pre-trained models are available at https://github.com/jimmy-dq/DropMAE.git.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

jimmy-dq/dropmae official

Tasks

Add Remove

Object Tracking

Semantic Segmentation

Video Object Segmentation

Video Semantic Segmentation

Visual Object Tracking

Datasets

Kinetics

DAVIS

OTB

DAVIS 2017

LaSOT

DAVIS 2016

GOT-10k

TrackingNet

YouTube-VOS 2018

WebVid

MiT

TNL2K

ITB

Results from the Paper

Edit

Ranked #1 on Visual Object Tracking on TrackingNet (AUC metric)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Object Tracking	GOT-10k	DropMAE	Average Overlap	75.9	# 6	Compare
			Success Rate 0.5	86.8	# 3	Compare
			Success Rate 0.75	72	# 8	Compare
Visual Object Tracking	ITB	DropTrack	AUC	0.65	# 1	Compare
Visual Object Tracking	LaSOT	DropTrack	AUC	71.8	# 11	Compare
			Normalized Precision	81.8	# 4	Compare
			Precision	78.1	# 8	Compare
Visual Object Tracking	LaSOT-ext	DropTrack	AUC	52.7	# 5	Compare
Visual Object Tracking	LaSOT-ext	DropTrack	Precision	60.2	# 2	Compare
Visual Object Tracking	TNL2K	DropTrack	precision	57.9	# 2	Compare
Visual Object Tracking	TNL2K	DropTrack	AUC	0.569	# 7	Compare
Visual Object Tracking	TrackingNet	DropTrack	Normalized Precision	88.9	# 7	Compare
Visual Object Tracking	TrackingNet	DropTrack	AUC	0.841	# 1	Compare

Methods

Add Remove

AutoEncoder • Dropout • MAE • VOS

Edit Social Preview

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove