TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Cross-Modal Retrieval	COCO 2014	NAPReg	Image-to-text R@1	59.8	# 23
Cross-Modal Retrieval	COCO 2014	NAPReg	Text-to-image R@1	43.0	# 25
Cross-Modal Retrieval	Flickr30k	NAPReg	Image-to-text R@1	79.6	# 14
Cross-Modal Retrieval	Flickr30k	NAPReg	Text-to-image R@1	60.0	# 15
Cross-Modal Retrieval	Flickr-8k	NAPReg	Image-to-text R@1	56.2	# 1
Cross-Modal Retrieval	Flickr-8k	NAPReg	Text-to-image R@1	39.2	# 1
Cross-Modal Retrieval	MSCOCO-1k	NAPReg	Image-to-text R@1	81.9	# 1
Cross-Modal Retrieval	MSCOCO-1k	NAPReg	Text-to-image R@1	66.9	# 2
Cross-Modal Retrieval	MS-COCO-2014	NAPReg	Text-to-image R@1	43.0	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/napreg-nouns-as-proxies-regularization-for/cross-modal-retrieval-on-flickr-8k)](https://paperswithcode.com/sota/cross-modal-retrieval-on-flickr-8k?p=napreg-nouns-as-proxies-regularization-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/napreg-nouns-as-proxies-regularization-for/cross-modal-retrieval-on-mscoco-1k)](https://paperswithcode.com/sota/cross-modal-retrieval-on-mscoco-1k?p=napreg-nouns-as-proxies-regularization-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/napreg-nouns-as-proxies-regularization-for/cross-modal-retrieval-on-ms-coco-2014-1)](https://paperswithcode.com/sota/cross-modal-retrieval-on-ms-coco-2014-1?p=napreg-nouns-as-proxies-regularization-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/napreg-nouns-as-proxies-regularization-for/cross-modal-retrieval-on-flickr30k)](https://paperswithcode.com/sota/cross-modal-retrieval-on-flickr30k?p=napreg-nouns-as-proxies-regularization-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/napreg-nouns-as-proxies-regularization-for/cross-modal-retrieval-on-coco-2014)](https://paperswithcode.com/sota/cross-modal-retrieval-on-coco-2014?p=napreg-nouns-as-proxies-regularization-for)`

NAPReg: Nouns As Proxies Regularization for Semantically Aware Cross-Modal Embeddings

IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2023 · Bhavin Jawade, Deen Dayal Mohan, Naji Mohamed Ali, Srirangaraj Setlur, Venu Govindaraju ·

Cross-modal retrieval is a fundamental vision-language task with a broad range of practical applications. Text-to-image matching is the most common form of cross-modal retrieval where, given a large database of images and a textual query, the task is to retrieve the most relevant set of images. Existing methods utilize dual encoders with an attention mechanism and a ranking loss for learning embeddings that can be used for retrieval based on cosine similarity. Despite the fact that these methods attempt to perform semantic alignment across visual regions and textual words using tailored attention mechanisms, there is no explicit supervision from the training objective to enforce such alignment. To address this, we propose NAPReg, a novel regularization formulation that projects high-level semantic entities i.e Nouns into the embedding space as shared learnable proxies. We show that using such a formulation allows the attention mechanism to learn better word-region alignment while also utilizing region information from other samples to build a more generalized latent representation for semantic concepts. Experiments on three benchmark datasets i.e. MS-COCO, Flickr30k and Flickr8k demonstrate that our method achieves state-of-the-art results in cross-modal metric learning for text-image and image-text retrieval tasks. Code: https://github.com/bhavinjawade/NAPReq

PDF Abstract

Code

Add Remove Mark official

bhavinjawade/NAPReq

Tasks

Add Remove

Cross-Modal Retrieval

Metric Learning

Retrieval

Text Retrieval

Datasets

MS COCO

Flickr30k MSCOCO Flickr-8k

Results from the Paper

Add Remove

Ranked #1 on Cross-Modal Retrieval on MSCOCO-1k

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Cross-Modal Retrieval	COCO 2014	NAPReg	Image-to-text R@1	59.8	# 23	Compare
Cross-Modal Retrieval	COCO 2014	NAPReg	Text-to-image R@1	43.0	# 25	Compare
Cross-Modal Retrieval	Flickr30k	NAPReg	Image-to-text R@1	79.6	# 14	Compare
Cross-Modal Retrieval	Flickr30k	NAPReg	Text-to-image R@1	60.0	# 15	Compare
Cross-Modal Retrieval	Flickr-8k	NAPReg	Image-to-text R@1	56.2	# 1	Compare
Cross-Modal Retrieval	Flickr-8k	NAPReg	Text-to-image R@1	39.2	# 1	Compare
Cross-Modal Retrieval	MSCOCO-1k	NAPReg	Image-to-text R@1	81.9	# 1	Compare
Cross-Modal Retrieval	MSCOCO-1k	NAPReg	Text-to-image R@1	66.9	# 2	Compare
Cross-Modal Retrieval	MS-COCO-2014	NAPReg	Text-to-image R@1	43.0	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

NAPReg: Nouns As Proxies Regularization for Semantically Aware Cross-Modal Embeddings

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove