Search Results for author: Ding Bo

Found 1 papers, 0 papers with code

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

no code implementations • 11 Jan 2024 • Yuanzhao Zhai, Yiying Li, Zijian Gao, Xudong Gong, Kele Xu, Dawei Feng, Ding Bo, Huaimin Wang

ORPO generates Optimistic model Rollouts for Pessimistic offline policy Optimization.

Offline RL Reinforcement Learning (RL)

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.