TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Referring Expression Segmentation	DAVIS 2017 (val)	PolyFormer	J&F 1st frame	61.5	# 4
Referring Expression Comprehension	RefCoco+	PolyFormer-L	Val	84.98	# 4
Referring Expression Comprehension	RefCoco+	PolyFormer-L	Test A	89.77	# 3
Referring Expression Comprehension	RefCoco+	PolyFormer-L	Test B	77.97	# 4
Referring Expression Comprehension	RefCoco+	PolyFormer-B	Val	83.73	# 5
Referring Expression Comprehension	RefCoco+	PolyFormer-B	Test A	88.6	# 5
Referring Expression Comprehension	RefCoco+	PolyFormer-B	Test B	76.38	# 5
Referring Expression Comprehension	RefCOCO	PolyFormer-L	Val	90.38	# 6
Referring Expression Comprehension	RefCOCO	PolyFormer-L	Test A	92.89	# 4
Referring Expression Comprehension	RefCOCO	PolyFormer-L	Test B	87.16	# 4
Referring Expression Comprehension	RefCOCO	PolyFormer-B	Val	89.73	# 7
Referring Expression Comprehension	RefCOCO	PolyFormer-B	Test A	91.73	# 6
Referring Expression Comprehension	RefCOCO	PolyFormer-B	Test B	86.03	# 5
Referring Expression Comprehension	RefCOCOg-test	PolyFormer-B	Accuracy	84.96	# 6
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-B	Overall IoU	69.05	# 5
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-B	Mean IoU	69.88	# 2
Referring Expression Comprehension	RefCOCOg-test	PolyFormer-L	Accuracy	85.91	# 5
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-L	Overall IoU	70.19	# 4
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-L	Mean IoU	71.17	# 1
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-L	Overall IoU	69.2	# 5
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-L	Mean IoU	71.15	# 1
Referring Expression Comprehension	RefCOCOg-val	PolyFormer-B	Accuracy	84.46	# 7
Referring Expression Comprehension	RefCOCOg-val	PolyFormer-L	Accuracy	85.83	# 6
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-B	Overall IoU	67.76	# 6
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-B	Mean IoU	69.36	# 2
Referring Expression Segmentation	RefCOCO testA	PolyFormer-B	Overall IoU	76.64	# 7
Referring Expression Segmentation	RefCOCO testA	PolyFormer-B	Mean IoU	77.09	# 2
Referring Expression Segmentation	RefCOCO testA	PolyFormer-L	Overall IoU	78.29	# 5
Referring Expression Segmentation	RefCOCO testA	PolyFormer-L	Mean IoU	78.49	# 1
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-B	Overall IoU	72.89	# 6
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-B	Mean IoU	74.51	# 2
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-L	Overall IoU	74.56	# 5
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-L	Mean IoU	75.71	# 1
Referring Expression Segmentation	RefCOCO testB	PolyFormer-B	Overall IoU	71.06	# 4
Referring Expression Segmentation	RefCOCO testB	PolyFormer-B	Mean IoU	73.22	# 2
Referring Expression Segmentation	RefCOCO testB	PolyFormer-L	Overall IoU	73.25	# 3
Referring Expression Segmentation	RefCOCO testB	PolyFormer-L	Mean IoU	74.83	# 1
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-B	Overall IoU	59.33	# 6
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-B	Mean IoU	64.64	# 2
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-L	Overall IoU	61.87	# 5
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-L	Mean IoU	66.73	# 1
Referring Expression Segmentation	RefCoCo val	PolyFormer-L	Overall IoU	75.96	# 3
Referring Expression Segmentation	RefCoCo val	PolyFormer-L	Overall IoU	75.96	# 6
Referring Expression Segmentation	RefCoCo val	PolyFormer-L	Mean IoU	76.94	# 1
Referring Expression Segmentation	RefCoCo val	PolyFormer-B	Overall IoU	74.82	# 5
Referring Expression Segmentation	RefCoCo val	PolyFormer-B	Overall IoU	74.82	# 8
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-B	Overall IoU	67.64	# 8
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-B	Mean IoU	70.65	# 2
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-L	Overall IoU	69.33	# 7
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-L	Mean IoU	72.15	# 1
Referring Expression Segmentation	ReferIt	PolyFormer-B	Overall IoU	71.91	# 2
Referring Expression Segmentation	ReferIt	PolyFormer-B	Mean IoU	65.98	# 2
Referring Expression Segmentation	ReferIt	PolyFormer-L	Overall IoU	72.6	# 1
Referring Expression Segmentation	ReferIt	PolyFormer-L	Mean IoU	67.22	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-referit)](https://paperswithcode.com/sota/referring-expression-segmentation-on-referit?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-comprehension-on-refcoco-1)](https://paperswithcode.com/sota/referring-expression-comprehension-on-refcoco-1?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco-2)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-2?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco-7)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-7?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-davis)](https://paperswithcode.com/sota/referring-expression-segmentation-on-davis?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-comprehension-on-refcoco)](https://paperswithcode.com/sota/referring-expression-comprehension-on-refcoco?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcocog-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcocog-1?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-comprehension-on-1)](https://paperswithcode.com/sota/referring-expression-comprehension-on-1?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcocog)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcocog?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-1?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco-4)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-4?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco-5)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-5?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-comprehension-on)](https://paperswithcode.com/sota/referring-expression-comprehension-on?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco?p=polyformer-referring-image-segmentation-as)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/polyformer-referring-image-segmentation-as/referring-expression-segmentation-on-refcoco-3)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-3?p=polyformer-referring-image-segmentation-as)`

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

CVPR 2023 · Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha ·

In this work, instead of directly predicting the pixel-level segmentation masks, the problem of referring image segmentation is formulated as sequential polygon generation, and the predicted polygons can be later converted into segmentation masks. This is enabled by a new sequence-to-sequence framework, Polygon Transformer (PolyFormer), which takes a sequence of image patches and text query tokens as input, and outputs a sequence of polygon vertices autoregressively. For more accurate geometric localization, we propose a regression-based decoder, which predicts the precise floating-point coordinates directly, without any coordinate quantization error. In the experiments, PolyFormer outperforms the prior art by a clear margin, e.g., 5.40% and 4.52% absolute improvements on the challenging RefCOCO+ and RefCOCOg datasets. It also shows strong generalization ability when evaluated on the referring video segmentation task without fine-tuning, e.g., achieving competitive 61.5% J&F on the Ref-DAVIS17 dataset.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

amazon-science/polygon-transformer official

↳ Quickstart in

Spaces

108

Tasks

Add Remove

Image Segmentation

Quantization

Referring Expression Comprehension

Referring Expression Segmentation

Segmentation

Semantic Segmentation

Video Segmentation

Video Semantic Segmentation

Datasets

RefCOCO

DAVIS 2017

Referring Expressions for DAVIS 2016 & 2017 Google Refexp

Results from the Paper

Edit

Ranked #1 on Referring Expression Segmentation on ReferIt (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Referring Expression Segmentation	DAVIS 2017 (val)	PolyFormer	J&F 1st frame	61.5	# 4	Compare
Referring Expression Comprehension	RefCoco+	PolyFormer-L	Val	84.98	# 4	Compare
			Test A	89.77	# 3	Compare
			Test B	77.97	# 4	Compare
Referring Expression Comprehension	RefCoco+	PolyFormer-B	Val	83.73	# 5	Compare
			Test A	88.6	# 5	Compare
			Test B	76.38	# 5	Compare
Referring Expression Comprehension	RefCOCO	PolyFormer-L	Val	90.38	# 6	Compare
			Test A	92.89	# 4	Compare
			Test B	87.16	# 4	Compare
Referring Expression Comprehension	RefCOCO	PolyFormer-B	Val	89.73	# 7	Compare
			Test A	91.73	# 6	Compare
			Test B	86.03	# 5	Compare
Referring Expression Comprehension	RefCOCOg-test	PolyFormer-B	Accuracy	84.96	# 6	Compare
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-B	Overall IoU	69.05	# 5	Compare
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-B	Mean IoU	69.88	# 2	Compare
Referring Expression Comprehension	RefCOCOg-test	PolyFormer-L	Accuracy	85.91	# 5	Compare
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-L	Overall IoU	70.19	# 4	Compare
Referring Expression Segmentation	RefCOCOg-test	PolyFormer-L	Mean IoU	71.17	# 1	Compare
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-L	Overall IoU	69.2	# 5	Compare
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-L	Mean IoU	71.15	# 1	Compare
Referring Expression Comprehension	RefCOCOg-val	PolyFormer-B	Accuracy	84.46	# 7	Compare
Referring Expression Comprehension	RefCOCOg-val	PolyFormer-L	Accuracy	85.83	# 6	Compare
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-B	Overall IoU	67.76	# 6	Compare
Referring Expression Segmentation	RefCOCOg-val	PolyFormer-B	Mean IoU	69.36	# 2	Compare
Referring Expression Segmentation	RefCOCO testA	PolyFormer-B	Overall IoU	76.64	# 7	Compare
Referring Expression Segmentation	RefCOCO testA	PolyFormer-B	Mean IoU	77.09	# 2	Compare
Referring Expression Segmentation	RefCOCO testA	PolyFormer-L	Overall IoU	78.29	# 5	Compare
Referring Expression Segmentation	RefCOCO testA	PolyFormer-L	Mean IoU	78.49	# 1	Compare
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-B	Overall IoU	72.89	# 6	Compare
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-B	Mean IoU	74.51	# 2	Compare
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-L	Overall IoU	74.56	# 5	Compare
Referring Expression Segmentation	RefCOCO+ testA	PolyFormer-L	Mean IoU	75.71	# 1	Compare
Referring Expression Segmentation	RefCOCO testB	PolyFormer-B	Overall IoU	71.06	# 4	Compare
Referring Expression Segmentation	RefCOCO testB	PolyFormer-B	Mean IoU	73.22	# 2	Compare
Referring Expression Segmentation	RefCOCO testB	PolyFormer-L	Overall IoU	73.25	# 3	Compare
Referring Expression Segmentation	RefCOCO testB	PolyFormer-L	Mean IoU	74.83	# 1	Compare
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-B	Overall IoU	59.33	# 6	Compare
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-B	Mean IoU	64.64	# 2	Compare
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-L	Overall IoU	61.87	# 5	Compare
Referring Expression Segmentation	RefCOCO+ test B	PolyFormer-L	Mean IoU	66.73	# 1	Compare
Referring Expression Segmentation	RefCoCo val	PolyFormer-L	Overall IoU	75.96	# 3	Compare
			Overall IoU	75.96	# 6	Compare
			Mean IoU	76.94	# 1	Compare
Referring Expression Segmentation	RefCoCo val	PolyFormer-B	Overall IoU	74.82	# 5	Compare
Referring Expression Segmentation	RefCoCo val	PolyFormer-B	Overall IoU	74.82	# 8	Compare
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-B	Overall IoU	67.64	# 8	Compare
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-B	Mean IoU	70.65	# 2	Compare
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-L	Overall IoU	69.33	# 7	Compare
Referring Expression Segmentation	RefCOCO+ val	PolyFormer-L	Mean IoU	72.15	# 1	Compare
Referring Expression Segmentation	ReferIt	PolyFormer-B	Overall IoU	71.91	# 2	Compare
Referring Expression Segmentation	ReferIt	PolyFormer-B	Mean IoU	65.98	# 2	Compare
Referring Expression Segmentation	ReferIt	PolyFormer-L	Overall IoU	72.6	# 1	Compare
Referring Expression Segmentation	ReferIt	PolyFormer-L	Mean IoU	67.22	# 1	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove