崔淦渠-PRIME: 结合隐式过程奖励的大模型强化学习

m0_74120090 2025-04-23 14:55:06

课时名称课时知识点
崔淦渠-PRIME: 结合隐式过程奖励的大模型强化学习上海人工智能实验室青年科学家 OpenAI o1 以及DeepSeek-R1 模型的发布证明了强化学习是通向高阶推理能力的必经之路,但开源社区对此还少有探索。我们提出了基于可扩展过程奖励的在线强化学习方法PRIME,通过implicit process reward成功解决了PRM在大模型强化学习中怎么用,怎么训,怎么扩展的三大本质问题,易用性和可扩展性极佳。我们从Qwen2.5-Math-7B-Base出发训练了Eurus-2,仅用 1/10于Qwen的开源数据,数学能力超过Llama3.1-70B, GPT-4o等大模型。其中,PRIME为模型带来了16.7%的绝对提升。
...全文
32 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1

社区成员

发帖
与我相关
我的任务
社区管理员
  • m0_74120090
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧