Search Results for author: Wenqiang Wei

Found 1 papers, 0 papers with code

Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy

no code implementations • 7 Mar 2024 • Yu Zhu, Chuxiong Sun, Wenfei Yang, Wenqiang Wei, Bo Tang, Tianzhu Zhang, Zhiyu Li, Shifeng Zhang, Feiyu Xiong, Jie Hu, MingChuan Yang

Reinforcement Learning from Human Feedback (RLHF) is the prevailing approach to ensure Large Language Models (LLMs) align with human values.

Language Modelling Large Language Model +2

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.