崔淦渠-PRIME: 结合隐式过程奖励的大模型强化学习

m0_74120090 2025-04-23 14:55:06

课时名称

课时知识点

崔淦渠-PRIME: 结合隐式过程奖励的大模型强化学习

上海人工智能实验室青年科学家 OpenAI o1 以及DeepSeek-R1 模型的发布证明了强化学习是通向高阶推理能力的必经之路，但开源社区对此还少有探索。我们提出了基于可扩展过程奖励的在线强化学习方法PRIME，通过implicit process reward成功解决了PRM在大模型强化学习中怎么用，怎么训，怎么扩展的三大本质问题，易用性和可扩展性极佳。我们从Qwen2.5-Math-7B-Base出发训练了Eurus-2，仅用 1/10于Qwen的开源数据，数学能力超过Llama3.1-70B, GPT-4o等大模型。其中，PRIME为模型带来了16.7%的绝对提升。

...全文

62 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

25年1月来自清华大学的工作报告 “Process Reinforcement through Implicit Rewards”。之前作者提出隐式 PRM，即无需进程标签即可获得免费进程奖励。基于此，本文提出 PRIME（通过隐式奖励进行过程强化），一种具有过程奖励的在线 RL 开源解决方案，旨在提高语言模型的推理能力，使其超越模仿或提炼。借助 PRIME，从 Qwen2.5-Math-7B-Base 开始，训练的模型 Eurus-2-7B-PRIME 在 AIME 2024 上实现了 26.7% 的

PRIME（Process Reinforcement through Implicit Rewards）是一种在线强化学习算法，旨在通过隐式过程奖励有效提升语言模型的推理能力。其核心思想是利用隐式过程奖励模型为每个生成的token提供奖励，从而解决奖励稀疏的问题，并通过在线更新机制实现奖励模型的可扩展性和简洁性。

OpenAI o1 以及DeepSeek-R1 模型的发布证明了强化学习是通向高阶推理能力的必经之路，但开源社区对此还少有探索。使用PRM进行强化学习，其中有两个需要解决的关键问题：• 如何高效、可扩展地获取精确奖励信号（尤其是密集奖励）？• 如何构建有效的RL算法以充分释放这些信号潜力？我们寻求通过高效的奖励建模和强化学习实现高级推理能力的可扩展途径。我们的工作源于隐式过程奖励建模 (PRM) 目标。无需任何过程标签，隐式 PRM 被训练为结果奖励模型 (ORM)，然后用作 PRM。

Oracle报ORA-01722错误的排查经验最近开发的一个C++程序中，通过OCI访问数据库，在某个查询的时候，报ORA-01722错误。Oracle关于1722错误的描述是这样的：ORA-01722: invalid number（无效数字）。刚开始排查SQL语句是否有问题，发现同样的SQL语句在PL/SQL dev中执行不会报错。经过多次排

你有没有想过这样一个问题：为什么强化学习遇上数学推理，传统方法总是力不从心？原因是：LLMs在复杂推理任务中常依赖稀疏的“结果奖励”，但这种反馈粗糙低效，导致训练缓慢、易陷局部最优。近期DeepSeek-R1-Zero凭借“零样本强化学习”引发关注，但其依赖海量数据和复杂标注的痛点仍未解决。

CSDN技术会议的课程社区_NO_3

1

社区成员

155

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章