TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	mask AP	53.4	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	AP50	78.9	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	AP75	58.5	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	AR1	21.1	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	AR10	58.7	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	APso	70.4	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	APmo	59.8	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	APho	32.9	# 1
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	mask AP	49.6	# 4
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	AP50	72.5	# 3
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	AP75	55.0	# 3
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	AR1	20.8	# 2
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	AR10	54.6	# 3
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	APso	69.9	# 2
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	APmo	56.6	# 2
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	APho	27.1	# 2
Video Instance Segmentation	OVIS validation	DVIS++(R50, Offline)	mask AP	41.2	# 17
Video Instance Segmentation	OVIS validation	DVIS++(R50, Offline)	AP50	68.9	# 10
Video Instance Segmentation	OVIS validation	DVIS++(R50, Offline)	AP75	40.9	# 17
Video Instance Segmentation	OVIS validation	DVIS++(R50, Offline)	AR1	16.8	# 14
Video Instance Segmentation	OVIS validation	DVIS++(R50, Offline)	AR10	47.3	# 11
Video Instance Segmentation	OVIS validation	DVIS++(R50, Online)	mask AP	37.2	# 20
Video Instance Segmentation	OVIS validation	DVIS++(R50, Online)	AP50	62.8	# 17
Video Instance Segmentation	OVIS validation	DVIS++(R50, Online)	AP75	37.3	# 20
Video Instance Segmentation	OVIS validation	DVIS++(R50, Online)	AR1	15.8	# 19
Video Instance Segmentation	OVIS validation	DVIS++(R50, Online)	AR10	42.9	# 15
Video Panoptic Segmentation	VIPSeg	DVIS++(VIT-L)	VPQ	58.0	# 1
Video Panoptic Segmentation	VIPSeg	DVIS++(VIT-L)	STQ	56.0	# 2
Video Semantic Segmentation	VSPW	DVIS++(VIT-L)	mIoU	63.8	# 1
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Offline)	mask AP	63.9	# 1
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Offline)	AP50	86.7	# 1
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Offline)	AP75	71.5	# 1
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Offline)	AR10	69.5	# 1
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Offline)	AR1	48.8	# 3
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Online)	mask AP	62.3	# 2
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Online)	AP50	82.7	# 4
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Online)	AP75	70.2	# 2
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Online)	AR10	68.0	# 2
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Online)	AR1	49.5	# 1
Video Instance Segmentation	Youtube-VIS 2022 Validation	DVIS++(VIT-L)	mAP_L	50.9	# 1
Video Instance Segmentation	Youtube-VIS 2022 Validation	DVIS++(VIT-L)	AP50_L	75.7	# 1
Video Instance Segmentation	Youtube-VIS 2022 Validation	DVIS++(VIT-L)	AP75_L	52.8	# 1
Video Instance Segmentation	Youtube-VIS 2022 Validation	DVIS++(VIT-L)	AR1_L	40.6	# 1
Video Instance Segmentation	Youtube-VIS 2022 Validation	DVIS++(VIT-L)	AR10_L	55.8	# 1
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Offline)	mask AP	68.3	# 1
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Offline)	AP50	90.3	# 1
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Offline)	AP75	76.1	# 1
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Offline)	AR1	57.8	# 2
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Offline)	AR10	73.4	# 2
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Online)	mask AP	67.7	# 2
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Online)	AP50	88.8	# 2
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Online)	AP75	75.3	# 2
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Online)	AR1	57.9	# 1
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Online)	AR10	73.7	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dvis-improved-decoupled-framework-for/video-instance-segmentation-on-ovis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-ovis-1?p=dvis-improved-decoupled-framework-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dvis-improved-decoupled-framework-for/video-panoptic-segmentation-on-vipseg)](https://paperswithcode.com/sota/video-panoptic-segmentation-on-vipseg?p=dvis-improved-decoupled-framework-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dvis-improved-decoupled-framework-for/video-semantic-segmentation-on-vspw)](https://paperswithcode.com/sota/video-semantic-segmentation-on-vspw?p=dvis-improved-decoupled-framework-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dvis-improved-decoupled-framework-for/video-instance-segmentation-on-youtube-vis-2)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-2?p=dvis-improved-decoupled-framework-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dvis-improved-decoupled-framework-for/video-instance-segmentation-on-youtube-vis-3)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-3?p=dvis-improved-decoupled-framework-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dvis-improved-decoupled-framework-for/video-instance-segmentation-on-youtube-vis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-1?p=dvis-improved-decoupled-framework-for)`

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

20 Dec 2023 · Tao Zhang, Xingye Tian, Yikang Zhou, Shunping Ji, Xuebo Wang, Xin Tao, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Yu Wu ·

We present the \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS) framework, a novel approach for the challenging task of universal video segmentation, including video instance segmentation (VIS), video semantic segmentation (VSS), and video panoptic segmentation (VPS). Unlike previous methods that model video segmentation in an end-to-end manner, our approach decouples video segmentation into three cascaded sub-tasks: segmentation, tracking, and refinement. This decoupling design allows for simpler and more effective modeling of the spatio-temporal representations of objects, especially in complex scenes and long videos. Accordingly, we introduce two novel components: the referring tracker and the temporal refiner. These components track objects frame by frame and model spatio-temporal representations based on pre-aligned features. To improve the tracking capability of DVIS, we propose a denoising training strategy and introduce contrastive learning, resulting in a more robust framework named DVIS++. Furthermore, we evaluate DVIS++ in various settings, including open vocabulary and using a frozen pre-trained backbone. By integrating CLIP with DVIS++, we present OV-DVIS++, the first open-vocabulary universal video segmentation framework. We conduct extensive experiments on six mainstream benchmarks, including the VIS, VSS, and VPS datasets. Using a unified architecture, DVIS++ significantly outperforms state-of-the-art specialized methods on these benchmarks in both close- and open-vocabulary settings. Code:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}.

PDF Abstract

Code

Add Remove Mark official

zhang-tao-whu/DVIS_Plus official

Tasks

Add Remove

Contrastive Learning

Denoising

Instance Segmentation

Panoptic Segmentation

Segmentation

Semantic Segmentation

Video Instance Segmentation

Video Panoptic Segmentation

Video Segmentation

Video Semantic Segmentation

Datasets

MS COCO

LVIS

YouTube-VIS 2019

OVIS YouTube-VIS 2021 VSPW VIPSeg

Youtube-VIS 2022 Validation

Results from the Paper

Add Remove

Ranked #1 on Video Semantic Segmentation on VSPW

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Offline)	mask AP	53.4	# 1	Compare
			AP50	78.9	# 1	Compare
			AP75	58.5	# 1	Compare
			AR1	21.1	# 1	Compare
			AR10	58.7	# 1	Compare
			APso	70.4	# 1	Compare
			APmo	59.8	# 1	Compare
			APho	32.9	# 1	Compare
Video Instance Segmentation	OVIS validation	DVIS++(VIT-L, Online)	mask AP	49.6	# 4	Compare
			AP50	72.5	# 3	Compare
			AP75	55.0	# 3	Compare
			AR1	20.8	# 2	Compare
			AR10	54.6	# 3	Compare
			APso	69.9	# 2	Compare
			APmo	56.6	# 2	Compare
			APho	27.1	# 2	Compare
Video Instance Segmentation	OVIS validation	DVIS++(R50, Offline)	mask AP	41.2	# 17	Compare
			AP50	68.9	# 10	Compare
			AP75	40.9	# 17	Compare
			AR1	16.8	# 14	Compare
			AR10	47.3	# 11	Compare
Video Instance Segmentation	OVIS validation	DVIS++(R50, Online)	mask AP	37.2	# 20	Compare
			AP50	62.8	# 17	Compare
			AP75	37.3	# 20	Compare
			AR1	15.8	# 19	Compare
			AR10	42.9	# 15	Compare
Video Panoptic Segmentation	VIPSeg	DVIS++(VIT-L)	VPQ	58.0	# 1	Compare
Video Panoptic Segmentation	VIPSeg	DVIS++(VIT-L)	STQ	56.0	# 2	Compare
Video Semantic Segmentation	VSPW	DVIS++(VIT-L)	mIoU	63.8	# 1	Compare
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Offline)	mask AP	63.9	# 1	Compare
			AP50	86.7	# 1	Compare
			AP75	71.5	# 1	Compare
			AR10	69.5	# 1	Compare
			AR1	48.8	# 3	Compare
Video Instance Segmentation	YouTube-VIS 2021	DVIS++(VIT-L, Online)	mask AP	62.3	# 2	Compare
			AP50	82.7	# 4	Compare
			AP75	70.2	# 2	Compare
			AR10	68.0	# 2	Compare
			AR1	49.5	# 1	Compare
Video Instance Segmentation	Youtube-VIS 2022 Validation	DVIS++(VIT-L)	mAP_L	50.9	# 1	Compare
			AP50_L	75.7	# 1	Compare
			AP75_L	52.8	# 1	Compare
			AR1_L	40.6	# 1	Compare
			AR10_L	55.8	# 1	Compare
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Offline)	mask AP	68.3	# 1	Compare
			AP50	90.3	# 1	Compare
			AP75	76.1	# 1	Compare
			AR1	57.8	# 2	Compare
			AR10	73.4	# 2	Compare
Video Instance Segmentation	YouTube-VIS validation	DVIS++(VIT-L, Online)	mask AP	67.7	# 2	Compare
			AP50	88.8	# 2	Compare
			AP75	75.3	# 2	Compare
			AR1	57.9	# 1	Compare
			AR10	73.7	# 1	Compare

Methods

Add Remove

CLIP

Edit Social Preview

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove