NoCaps

Introduced by Agrawal et al. in nocaps: novel object captioning at scale

The nocaps benchmark consists of 166,100 human-generated captions describing 15,100 images from the OpenImages validation and test sets.

Source: nocaps: novel object captioning at scale

Homepage

Task	Dataset Variant	Best Model
Image Captioning	nocaps in-domain	GIT2, Single Model
Image Captioning	nocaps out-of-domain	PaLI
Image Captioning	nocaps near-domain	GIT2, Single Model
Image Captioning	nocaps entire	Lyrics
Image Captioning	nocaps-XD entire	GIT2
Image Captioning	nocaps-XD out-of-domain	GIT2
Image Captioning	nocaps-XD in-domain	GIT2
Image Captioning	nocaps-XD near-domain	GIT2
Image Captioning	nocaps-val-in-domain	BLIP-2 ViT-G FlanT5 XL
Image Captioning	nocaps-val-overall	BLIP-2 ViT-G FlanT5 XL
Image Captioning	nocaps-val-out-domain	BLIP-2 ViT-G FlanT5 XL
Image Captioning	nocaps-val-near-domain	BLIP-2 ViT-G FlanT5 XL
Image Captioning	nocaps val	Prismer