Flickr30k

The Flickr30k dataset contains 31,000 images collected from Flickr, together with 5 reference sentences provided by human annotators.

Source: Guiding Long-Short Term Memory for Image Caption Generation

Homepage

Task	Dataset Variant	Best Model
Cross-Modal Retrieval	Flickr30k	X2-VLM
Zero-Shot Cross-Modal Retrieval	Flickr30k	InternVL-G
Image Retrieval	Flickr30K 1K test	X-VLM
Image-to-Text Retrieval	Flickr30k	InternVL-G-FT
Node Classification	Flickr	GCN+GAugM
Image Captioning	Flickr30k Captions test	Unified VLP
Image Retrieval	Flickr30k	BLIP-2 ViT-G
Phrase Grounding	Flickr30k	GBS Ensemble + 12-in-1
Semi Supervised Learning for Image Captioning	Flickr30k	CapDec