1 dataset result for Explanatory Visual Question Answering AND Images AND English

A GQA-based dataset with 1,040,830 multi-modal explanations of visual reasoning processes.

7 PAPERS • 1 BENCHMARK

Datasets