Search Results for author: Haonan Luo

Found 2 papers, 1 papers with code

Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering

1 code implementation • 14 Mar 2024 • Zhixuan Shen, Haonan Luo, Sijia Li, Tianrui Li

Scene-Text Visual Question Answering (ST-VQA) aims to understand scene text in images and answer questions related to the text content.

Optical Character Recognition Optical Character Recognition (OCR) +2

Paper
Code

SegEQA: Video Segmentation Based Visual Attention for Embodied Question Answering

no code implementations • ICCV 2019 • Haonan Luo, Guosheng Lin, Zichuan Liu, Fayao Liu, Zhenmin Tang, Yazhou Yao

Then by the guide of extracted semantic features, a bottom-up visual attention mechanism is proposed for the Visual Question Answering (VQA) sub-task.

Embodied Question Answering Question Answering +4

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.