Search Results for author: Qiying Yu

Found 7 papers, 6 papers with code

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

2 code implementations • 6 Feb 2024 • Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang

Scaling up contrastive language-image pretraining (CLIP) is critical for empowering both vision and multimodal models.

Ranked #1 on Zero-Shot Transfer Image Classification on SUN

Image Classification Zero-Shot Transfer Image Classification

1,967

Paper
Code

Generative Multimodal Models are In-Context Learners

1 code implementation • 20 Dec 2023 • Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang

The human ability to easily solve multimodal tasks in context (i. e., with only a few demonstrations or simple instructions), is what current multimodal systems have largely struggled to imitate.

Ranked #21 on Visual Question Answering on MM-Vet

In-Context Learning Question Answering +2

1,496

Paper
Code

CapsFusion: Rethinking Image-Text Data at Scale

1 code implementation • 31 Oct 2023 • Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Yue Cao, Xinlong Wang, Jingjing Liu

To provide higher-quality and more scalable multimodal pretraining data, we propose CapsFusion, an advanced framework that leverages large language models to consolidate and refine information from both web-based image-text pairs and synthetic captions.

World Knowledge

172

Paper
Code

Multimodal Molecular Pretraining via Modality Blending

no code implementations • 12 Jul 2023 • Qiying Yu, Yudi Zhang, Yuyan Ni, Shikun Feng, Yanyan Lan, Hao Zhou, Jingjing Liu

Self-supervised learning has recently gained growing interest in molecular modeling for scientific tasks such as AI-assisted drug discovery.

Drug Discovery molecular representation +3

Paper
Add Code

Generative Pretraining in Multimodality

2 code implementations • 11 Jul 2023 • Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang

We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context.

Ranked #1 on Visual Question Answering on VQA v2

Image Captioning Temporal/Casual QA +4

1,496

Paper
Code

Multimodal Federated Learning via Contrastive Representation Ensemble

1 code implementation • 17 Feb 2023 • Qiying Yu, Yang Liu, Yimu Wang, Ke Xu, Jingjing Liu

In this work, we propose Contrastive Representation Ensemble and Aggregation for Multimodal FL (CreamFL), a multimodal federated learning framework that enables training larger server models from clients with heterogeneous model architectures and data modalities, while only communicating knowledge on public dataset.

Federated Learning Question Answering +3

Paper
Code

Adversarial Contrastive Learning via Asymmetric InfoNCE

1 code implementation • 18 Jul 2022 • Qiying Yu, Jieming Lou, Xianyuan Zhan, Qizhang Li, WangMeng Zuo, Yang Liu, Jingjing Liu

Contrastive learning (CL) has recently been applied to adversarial learning tasks.

Adversarial Robustness Contrastive Learning

Paper
Code

Cannot find the paper you are looking for? You can Submit a new open access paper.