TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	mask AP	42.6	# 13
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	AP50	67.8	# 13
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	AP75	44.3	# 13
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	AR1	18.3	# 10
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	AR10	46.5	# 13
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	APso	65.1	# 3
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	APmo	49.3	# 4
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	APho	21.6	# 4
Video Instance Segmentation	YouTube-VIS 2021	MDQE(Swin-L)	mask AP	55.5	# 13
Video Instance Segmentation	YouTube-VIS 2021	MDQE(Swin-L)	AP50	80.7	# 10
Video Instance Segmentation	YouTube-VIS 2021	MDQE(Swin-L)	AP75	61.7	# 13
Video Instance Segmentation	YouTube-VIS 2021	MDQE(Swin-L)	AR10	60.6	# 14
Video Instance Segmentation	YouTube-VIS 2021	MDQE(Swin-L)	AR1	45.4	# 13
Video Instance Segmentation	YouTube-VIS validation	MDQE(Swin-L)	mask AP	59.9	# 16
Video Instance Segmentation	YouTube-VIS validation	MDQE(Swin-L)	AP50	84.9	# 10
Video Instance Segmentation	YouTube-VIS validation	MDQE(Swin-L)	AP75	67.3	# 12
Video Instance Segmentation	YouTube-VIS validation	MDQE(Swin-L)	AR1	53.5	# 12
Video Instance Segmentation	YouTube-VIS validation	MDQE(Swin-L)	AR10	65.0	# 12

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mdqe-mining-discriminative-query-embeddings/video-instance-segmentation-on-ovis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-ovis-1?p=mdqe-mining-discriminative-query-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mdqe-mining-discriminative-query-embeddings/video-instance-segmentation-on-youtube-vis-2)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-2?p=mdqe-mining-discriminative-query-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mdqe-mining-discriminative-query-embeddings/video-instance-segmentation-on-youtube-vis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-1?p=mdqe-mining-discriminative-query-embeddings)`

MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos

CVPR 2023 · Minghan Li, Shuai Li, Wangmeng Xiang, Lei Zhang ·

While impressive progress has been achieved, video instance segmentation (VIS) methods with per-clip input often fail on challenging videos with occluded objects and crowded scenes. This is mainly because instance queries in these methods cannot encode well the discriminative embeddings of instances, making the query-based segmenter difficult to distinguish those `hard' instances. To address these issues, we propose to mine discriminative query embeddings (MDQE) to segment occluded instances on challenging videos. First, we initialize the positional embeddings and content features of object queries by considering their spatial contextual information and the inter-frame object motion. Second, we propose an inter-instance mask repulsion loss to distance each instance from its nearby non-target instances. The proposed MDQE is the first VIS method with per-clip input that achieves state-of-the-art results on challenging videos and competitive performance on simple videos. In specific, MDQE with ResNet50 achieves 33.0\% and 44.5\% mask AP on OVIS and YouTube-VIS 2021, respectively. Code of MDQE can be found at \url{https://github.com/MinghanLi/MDQE_CVPR2023}.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

minghanli/mdqe_cvpr2023 official

Tasks

Add Remove

Instance Segmentation

Semantic Segmentation

Video Instance Segmentation

Datasets

YouTube-VIS 2019

OVIS YouTube-VIS 2021

Results from the Paper

Edit

Ranked #13 on Video Instance Segmentation on YouTube-VIS 2021

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Instance Segmentation	OVIS validation	MDQE(SwinL)	mask AP	42.6	# 13	Compare
			AP50	67.8	# 13	Compare
			AP75	44.3	# 13	Compare
			AR1	18.3	# 10	Compare
			AR10	46.5	# 13	Compare
			APso	65.1	# 3	Compare
			APmo	49.3	# 4	Compare
			APho	21.6	# 4	Compare
Video Instance Segmentation	YouTube-VIS 2021	MDQE(Swin-L)	mask AP	55.5	# 13	Compare
			AP50	80.7	# 10	Compare
			AP75	61.7	# 13	Compare
			AR10	60.6	# 14	Compare
			AR1	45.4	# 13	Compare
Video Instance Segmentation	YouTube-VIS validation	MDQE(Swin-L)	mask AP	59.9	# 16	Compare
			AP50	84.9	# 10	Compare
			AP75	67.3	# 12	Compare
			AR1	53.5	# 12	Compare
			AR10	65.0	# 12	Compare

Methods

Add Remove

fail

Edit Social Preview

MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove