TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK	REMOVE
Conditional Text-to-Image Synthesis	COCO-MIG	Instance Diffusion (zero-shot)	instance success rate	0.51	# 3
Conditional Text-to-Image Synthesis	COCO-MIG	Instance Diffusion (zero-shot)	mIoU	0.46	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/instancediffusion-instance-level-control-for/conditional-text-to-image-synthesis-on-coco-1)](https://paperswithcode.com/sota/conditional-text-to-image-synthesis-on-coco-1?p=instancediffusion-instance-level-control-for)`

InstanceDiffusion: Instance-level Control for Image Generation

5 Feb 2024 · Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, Ishan Misra ·

Text-to-image diffusion models produce high quality images but do not offer control over individual instances in the image. We introduce InstanceDiffusion that adds precise instance-level control to text-to-image diffusion models. InstanceDiffusion supports free-form language conditions per instance and allows flexible ways to specify instance locations such as simple single points, scribbles, bounding boxes or intricate instance segmentation masks, and combinations thereof. We propose three major changes to text-to-image models that enable precise instance-level control. Our UniFusion block enables instance-level conditions for text-to-image models, the ScaleU block improves image fidelity, and our Multi-instance Sampler improves generations for multiple instances. InstanceDiffusion significantly surpasses specialized state-of-the-art models for each location condition. Notably, on the COCO dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$ for box inputs, and 25.4% IoU for mask inputs.

PDF Abstract

Code

Add Remove Mark official

frank-xwang/InstanceDiffusion official

305

Tasks

Add Remove

Conditional Text-to-Image Synthesis

Image Generation

Instance Segmentation

Semantic Segmentation

Datasets

MS COCO COCO-MIG

Results from the Paper

Add Remove

Ranked #3 on Conditional Text-to-Image Synthesis on COCO-MIG

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Conditional Text-to-Image Synthesis	COCO-MIG	Instance Diffusion (zero-shot)	instance success rate	0.51	# 3	Compare
Conditional Text-to-Image Synthesis	COCO-MIG	Instance Diffusion (zero-shot)	mIoU	0.46	# 3	Compare

Methods

Add Remove

Diffusion

Edit Social Preview

InstanceDiffusion: Instance-level Control for Image Generation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove