TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Object Tracking	GOT-10k	ODTrack-B	Average Overlap	77.0	# 4
Visual Object Tracking	GOT-10k	ODTrack-L	Average Overlap	78.2	# 3
Visual Object Tracking	LaSOT	ODTrack-B	AUC	73.2	# 4
Visual Object Tracking	LaSOT	ODTrack-L	AUC	74.0	# 1
Visual Object Tracking	LaSOT-ext	ODTrack-L	AUC	53.9	# 2
Visual Object Tracking	LaSOT-ext	ODTrack-B	AUC	52.4	# 6
Visual Object Tracking	OTB-2015	ODTrack-B	AUC	0.723	# 2
Visual Object Tracking	OTB-2015	ODTrack-L	AUC	0.724	# 1
Visual Object Tracking	TNL2K	ODTrack-B	AUC	60.9	# 3
Visual Object Tracking	TNL2K	ODTrack-L	AUC	61.7	# 1
Visual Object Tracking	TrackingNet	ODTrack-L	Accuracy	86.1	# 1
Visual Object Tracking	TrackingNet	ODTrack-B	Accuracy	85.1	# 7
Semi-Supervised Video Object Segmentation	VOT2020	ODTrack-B	EAO	0.581	# 7
Semi-Supervised Video Object Segmentation	VOT2020	ODTrack-L	EAO	0.605	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/visual-object-tracking-on-lasot)](https://paperswithcode.com/sota/visual-object-tracking-on-lasot?p=odtrack-online-dense-temporal-token-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/visual-object-tracking-on-otb-2015)](https://paperswithcode.com/sota/visual-object-tracking-on-otb-2015?p=odtrack-online-dense-temporal-token-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/visual-object-tracking-on-tnl2k)](https://paperswithcode.com/sota/visual-object-tracking-on-tnl2k?p=odtrack-online-dense-temporal-token-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/visual-object-tracking-on-trackingnet)](https://paperswithcode.com/sota/visual-object-tracking-on-trackingnet?p=odtrack-online-dense-temporal-token-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/visual-object-tracking-on-lasot-ext)](https://paperswithcode.com/sota/visual-object-tracking-on-lasot-ext?p=odtrack-online-dense-temporal-token-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/visual-object-tracking-on-got-10k)](https://paperswithcode.com/sota/visual-object-tracking-on-got-10k?p=odtrack-online-dense-temporal-token-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/odtrack-online-dense-temporal-token-learning/semi-supervised-video-object-segmentation-on-15)](https://paperswithcode.com/sota/semi-supervised-video-object-segmentation-on-15?p=odtrack-online-dense-temporal-token-learning)`

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

3 Jan 2024 · Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang, Xianxian Li ·

Online contextual reasoning and association across consecutive video frames are critical to perceive instances in visual tracking. However, most current top-performing trackers persistently lean on sparse temporal relationships between reference and search frames via an offline mode. Consequently, they can only interact independently within each image-pair and establish limited temporal correlations. To alleviate the above problem, we propose a simple, flexible and effective video-level tracking pipeline, named \textbf{ODTrack}, which densely associates the contextual relationships of video frames in an online token propagation manner. ODTrack receives video frames of arbitrary length to capture the spatio-temporal trajectory relationships of an instance, and compresses the discrimination features (localization information) of a target into a token sequence to achieve frame-to-frame association. This new solution brings the following benefits: 1) the purified token sequences can serve as prompts for the inference in the next video frame, whereby past information is leveraged to guide future inference; 2) the complex online update strategies are effectively avoided by the iterative propagation of token sequences, and thus we can achieve more efficient model representation and computation. ODTrack achieves a new \textit{SOTA} performance on seven benchmarks, while running at real-time speed. Code and models are available at \url{https://github.com/GXNU-ZhongLab/ODTrack}.

PDF Abstract

Code

Add Remove Mark official

gxnu-zhonglab/odtrack official

Tasks

Add Remove

Semi-Supervised Video Object Segmentation

Visual Object Tracking

Visual Tracking

Datasets

OTB

LaSOT

GOT-10k

TrackingNet

OTB-2015

TNL2K VOTChallenge

VOT2020

Results from the Paper

Add Remove

Ranked #1 on Visual Object Tracking on TrackingNet

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Object Tracking	GOT-10k	ODTrack-B	Average Overlap	77.0	# 4	Compare
Visual Object Tracking	GOT-10k	ODTrack-L	Average Overlap	78.2	# 3	Compare
Visual Object Tracking	LaSOT	ODTrack-B	AUC	73.2	# 4	Compare
Visual Object Tracking	LaSOT	ODTrack-L	AUC	74.0	# 1	Compare
Visual Object Tracking	LaSOT-ext	ODTrack-L	AUC	53.9	# 2	Compare
Visual Object Tracking	LaSOT-ext	ODTrack-B	AUC	52.4	# 6	Compare
Visual Object Tracking	OTB-2015	ODTrack-B	AUC	0.723	# 2	Compare
Visual Object Tracking	OTB-2015	ODTrack-L	AUC	0.724	# 1	Compare
Visual Object Tracking	TNL2K	ODTrack-B	AUC	60.9	# 3	Compare
Visual Object Tracking	TNL2K	ODTrack-L	AUC	61.7	# 1	Compare
Visual Object Tracking	TrackingNet	ODTrack-L	Accuracy	86.1	# 1	Compare
Visual Object Tracking	TrackingNet	ODTrack-B	Accuracy	85.1	# 7	Compare
Semi-Supervised Video Object Segmentation	VOT2020	ODTrack-B	EAO	0.581	# 7	Compare
Semi-Supervised Video Object Segmentation	VOT2020	ODTrack-L	EAO	0.605	# 3	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove