TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Explanatory Visual Question Answering	GQA-REX	VCIN	BLEU-4	58.65	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	METEOR	41.57	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	ROUGE-L	81.45	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	CIDEr	519.23	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	SPICE	54.63	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	Grounding	77.33	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	GQA-val	81.80	# 1
Explanatory Visual Question Answering	GQA-REX	VCIN	GQA-test	60.61	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/variational-causal-inference-network-for/explanatory-visual-question-answering-on-gqa)](https://paperswithcode.com/sota/explanatory-visual-question-answering-on-gqa?p=variational-causal-inference-network-for)`

Variational Causal Inference Network for Explanatory Visual Question Answering

ICCV 2023 · Dizhan Xue, Shengsheng Qian, Changsheng Xu ·

Explanatory Visual Question Answering (EVQA) is a recently proposed multimodal reasoning task that requires answering visual questions and generating multimodal explanations for the reasoning processes. Unlike traditional Visual Question Answering (VQA) which focuses solely on answering, EVQA aims to provide user-friendly explanations to enhance the explainability and credibility of reasoning models. However, existing EVQA methods typically predict the answer and explanation separately, which ignores the causal correlation between them. Moreover, they neglect the complex relationships among question words, visual regions, and explanation tokens. To address these issues, we propose a Variational Causal Inference Network (VCIN) that establishes the causal correlation between predicted answers and explanations, and captures cross-modal relationships to generate rational explanations. First, we utilize a vision-and-language pretrained model to extract visual features and question features. Secondly, we propose a multimodal explanation gating transformer that constructs cross-modal relationships and generates rational explanations. Finally, we propose a variational causal inference to establish the target causal structure and predict the answers. Comprehensive experiments demonstrate the superiority of VCIN over state-of-the-art EVQA methods.

PDF Abstract

Code

Add Remove Mark official

LivXue/VCIN official

Tasks

Add Remove

Explanation Generation

Explanatory Visual Question Answering

Multimodal Reasoning

Question Answering

Visual Question Answering

Visual Question Answering (VQA)

Datasets

GQA

GQA-REX

GQA-OOD

Results from the Paper

Add Remove

Ranked #1 on Explanatory Visual Question Answering on GQA-REX

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Explanatory Visual Question Answering	GQA-REX	VCIN	BLEU-4	58.65	# 1	Compare
			METEOR	41.57	# 1	Compare
			ROUGE-L	81.45	# 1	Compare
			CIDEr	519.23	# 1	Compare
			SPICE	54.63	# 1	Compare
			Grounding	77.33	# 1	Compare
			GQA-val	81.80	# 1	Compare
			GQA-test	60.61	# 1	Compare

Methods

Add Remove

Causal inference

Edit Social Preview

Variational Causal Inference Network for Explanatory Visual Question Answering

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove