1
社区成员




课时名称 | 课时知识点 |
---|---|
崔淦渠-PRIME: 结合隐式过程奖励的大模型强化学习 | 上海人工智能实验室青年科学家 OpenAI o1 以及DeepSeek-R1 模型的发布证明了强化学习是通向高阶推理能力的必经之路,但开源社区对此还少有探索。我们提出了基于可扩展过程奖励的在线强化学习方法PRIME,通过implicit process reward成功解决了PRM在大模型强化学习中怎么用,怎么训,怎么扩展的三大本质问题,易用性和可扩展性极佳。我们从Qwen2.5-Math-7B-Base出发训练了Eurus-2,仅用 1/10于Qwen的开源数据,数学能力超过Llama3.1-70B, GPT-4o等大模型。其中,PRIME为模型带来了16.7%的绝对提升。 |