预训练空间强化学习:从优化P(y)到提升P(y|x)的范式跃迁
1. 项目概述:从条件优化到边际优化的范式跃迁
在大型语言模型(LLM)的优化领域,我们通常将强化学习(RL)视为一种“后训练”阶段的精炼工具。它的工作模式很直观:给定一个问题x,模型会生成一个答案y,我们根据答案的正确性给予奖励,然后通过策略梯度等方法,去优化模型在给定x下生成y的条件概率分布P(y|x)。这套流程,也就是所谓的“后训练空间强化学习”,已经催生了像DeepSeek-R1这样在数学推理上表现卓越的模型。它像一位经验丰富的教练,针对运动员(模型)在特定比赛(任务)中的表现,进行一对一的战术指导和动作纠正。
然而,这种模式的潜力存在一个根本性的天花板。教练的指导再出色,也无法让运动员做出他身体能力范围之外的动作。同样,后训练RL无论怎么优化P(y|x),其探索和提升的上限,都被基础模型在预训练阶段学到的、固化在参数中的“知识肌肉记忆”——也就是边际分布P(y)——所框定。如果基础模型在预训练时,对某些复杂的推理模式(比如多步数学归纳、物理问题中的能量守恒分析)接触不足,那么后训练RL很难凭空“教会”它。它只能在模型已有的、可能并不丰富的“动作库”里,挑选和强化那些看起来不错的选项,本质上是一种在局部最优解附近的精细化搜索。
这就引出了一个更根本的问题:我们能否直接去塑造和增强这个“知识肌肉记忆”本身?这就是预训练空间优化的核心思想——不再仅仅优化“在特定问题下如何回答”,而是去优化“模型本身倾向于如何思考和生成答案”的底层能力,即边际分布P(y)。传统的预训练,是通过在海量静态文本语料上进行下一个词的预测,被动地吸收知识。这种方式虽然能建立广泛的知识基础,但也导致了“所学”与下游推理任务“所需”之间的分布偏移。模型可能记住了海量的数学公式,但并未被训练成以严谨、连贯的逻辑链去运用它们。
本文介绍的预训练空间强化学习,正是为了解决这一矛盾而生。它大胆地将奖励驱动的、主动的强化学习机制,直接引入到对边际分布P(y)的优化过程中。其核心发现——负样本强化——尤为关键。与直觉相反,在预训练空间中,简单地强化正确样本(正样本)效果有限,甚至会因过度聚焦于模型自己生成的有限正确路径而导致性能崩溃。而主动地、有选择性地抑制错误样本(负样本),却能像一位严厉的园丁,精准地修剪掉推理树上的错误枝杈。这一过程不仅清理了错误的搜索空间,更意外地“激活”了模型内生的、更深层次的反思与推理能力,使得模型在后续的后训练优化中,能够在一个更健康、更广阔的“思维平原”上探索。
注意:理解P(y)和P(y|x)的区别是把握本文价值的关键。你可以把P(y)想象成模型内在的“思维习惯”或“知识底色”,它决定了模型在没有任何外部提示时,会倾向于产生什么样的文本流。而P(y|x)则是在这个底色上,针对具体问题x进行的“临场发挥”。优化P(y)是在改造模型的思维习惯,而优化P(y|x)更多是在调整其临场表现。前者是治本,后者是治标。
2. 核心原理:为什么优化P(y)也能提升P(y|x)?
将强化学习应用于预训练空间,听起来有些反直觉。毕竟,预训练的目标是学习通用的语言表示,而强化学习通常针对具体任务。这里最核心的理论基石,在于证明了优化边际目标log P(y)与优化条件目标log P(y|x)的梯度方向是强对齐的。这不是一个想当然的假设,而是有严谨的数学和实证支撑的。
2.1 梯度对齐的理论与实证
从理论上看,模型参数θ同时支配着边际分布π_θ(y)和条件分布π_θ(y|x)。当我们用策略梯度更新参数来最大化log P(y)的期望回报时,参数的变化量为:θ‘ = θ + η * ∇_θ log π_θ(y) * R(y)。那么,这个更新对条件对数概率log π_θ(y|x)会产生什么影响呢?通过一阶泰勒展开,我们可以得到:
log π_θ‘(y|x) ≈ log π_θ(y|x) + η * R(y) * [∇_θ log π_θ(y)]^T ∇_θ log π_θ(y|x) + O(η^2)
这个公式中的交叉项 [∇_θ log π_θ(y)]^T ∇_θ log π_θ(y|x) 就是两个梯度向量的内积。如果这个内积对于语义上与输入x对齐的推理轨迹y是非负的,那么更新log π_θ(y)就会同时将log π_θ(y|x)推向相同的方向(增大或减小)。换句话说,在预训练空间里“推”模型一把,也会让它在后训练空间里朝着我们希望的方向移动。
为了验证这一理论,研究团队在Qwen3-4B模型上进行了实证分析。他们从AMC23数据集中采样了400条推理轨迹,并计算了两种梯度的点积和余弦相似度。
- 梯度点积分析:如图2(a)所示,所有样本的梯度点积值均为非负,平均值高达+9.2。这意味着在参数更新的方向上,优化P(y)和优化P(y|x)几乎总是同向的,没有出现相互“拉扯”或抵消的情况。
- 梯度余弦相似度:如图2(b)所示,梯度向量的余弦相似度分布也集中在正值区域,平均值为0.44。这表明两个梯度在方向上有显著的正相关性。
- 概率分布对齐:进一步比较log P(y|x)和log P(y)在每个token上的差异(图2(c)),发现两者的分布高度重叠。这从结果上证实了,log P(y)可以作为log P(y|x)的一个可靠代理目标。
这些实证证据牢固地支撑了PreRL的可行性:在预训练空间进行奖励驱动的优化,能够有效影响模型在条件生成任务上的表现。
2.2 正负样本强化的不对称性
在标准后训练RL中,我们通常同时利用正样本(高奖励)和负样本(低奖励)来更新策略。但在预训练空间,这两者的作用出现了戏剧性的不对称。
-
正样本强化(PSR)的陷阱:在PreRL中,PSR旨在最大化模型自身生成的、获得高奖励的轨迹的边际概率log P(y)。实验发现,尽管PSR-PreRL确实能提高对应轨迹的条件概率P(y|x),印证了梯度对齐理论,但其学习动态是脆弱的。模型会迅速将概率质量过度集中在早期生成的、有限的“正确”模式上,导致探索空间急剧坍缩,最终引发性能崩溃。这有点像学生只反复练习自己已经会的那几道题,虽然这几道题越做越熟,但整体解题能力并没有提升,反而因为不接触新题型而退化。
-
负样本强化(NSR)的魔力:与PSR相反,NSR-PreRL旨在最小化低奖励(错误)轨迹的边际概率log P(y)。实验结果表明,这一机制效果惊人。它不仅有效地降低了错误轨迹的概率,更关键的是,它像一把“智能剪刀”,精准地修剪了预训练空间中的错误推理路径。如图3(b)所示,仅经过20步NSR-PreRL训练,模型产生的“过渡性思考”和“反思性思考”数量分别激增了14.89倍和6.54倍,远超标准GRPO训练25步的效果。
为什么NSR如此有效? 我的理解是,抑制一个具体的错误,比强化一个具体的正确,在预训练空间中是更“安全”且更“普适”的操作。强化一个正确样本,可能只是让模型更擅长生成与这个样本相似的文本,这是一种狭窄的“记忆”。而抑制一个错误样本,比如一个错误的数学推导步骤,相当于告诉模型:“这种思维模式是不可取的”。这种否定性的反馈,可能触发了模型内部更广泛的、联想式的知识重组,迫使其从其他路径寻找解决方案,从而激发了更深层、更结构化的内生推理能力。这为后续的精细优化扫清了障碍,并开辟了更广阔的探索空间。
实操心得:这一发现对算法设计有深远启示。在预训练或与预训练类似的、追求广泛能力构建的阶段,“避免错误”可能比“追求正确”是更有效的学习信号。在设计自监督或弱监督预训练任务时,可以有意引入对比学习或负采样机制,让模型在“排雷”的过程中学习通用模式。
3. 双空间强化学习(DSRL)的实现策略
基于对NSR-PreRL优势的深刻认识,直接用它完全替代标准RL并非最优。NSR-PreRL擅长“开荒”和“筑基”,但缺乏对特定问题条件反射的精细打磨。因此,本文提出了双空间强化学习框架,其核心是策略轮回策略。
3.1 策略轮回:从“筑基”到“精修”
DSRL的训练分为两个清晰的阶段:
- NSR-PreRL 预热阶段:在此阶段,模型使用NSR-PreRL进行训练。其更新梯度如公式(4)所示,关键点在于梯度计算时“抹去”了输入x的条件(公式中的 x̃ 表示),只针对负奖励样本(R(y) < 0)进行更新。这个过程持续S步(实验发现10-25步是甜点区)。目标是在预训练空间中进行“大扫除”,剪除错误的通用推理模式,并激发模型的内生推理潜力。
- 标准RL精修阶段:当训练步数s > S后,模型切换到标准的后训练空间RL(文中以GRPO为例)。此时,模型利用第一阶段准备好的、更“干净”和“活跃”的推理基础,在条件分布P(y|x)上进行精细优化,学习如何针对具体问题生成高质量答案。
这个切换过程就是“策略轮回”——我们将经过NSR-PreRL“洗礼”的模型检查点,作为第二阶段RL训练的初始策略。这相当于让一位已经通过基础体能和错误动作纠正训练(NSR-PreRL)的运动员,再接受针对比赛战术的专项训练(标准RL)。
3.2 训练动态与效率优势
图1(c)清晰地展示了DSRL相对于单纯GRPO的训练优势。DSRL在三个维度上均表现更佳:
- 性能更高:DSRL的最终平均准确率(61.6%)显著高于GRPO(57.7%)。
- 收敛更快:DSRL达到45%和58%准确率所需的训练步数,分别仅为GRPO的2.5分之一和1.6分之一。这说明NSR-PreRL预热为后续学习提供了一个极高的起点。
- 探索更稳:在NSR-PreRL阶段,模型的平均响应长度大幅增长,这表明其推理过程变得更加详尽和深入,探索行为更活跃。而这种探索是在“正确方向”上的,为后续RL提供了丰富的、高质量的候选解空间。
3.3 消融实验的关键洞察
为了确认NSR-PreRL独特价值,作者进行了关键的消融实验:
- 预热步数S的选择:如图7所示,性能随预热步数呈现倒U型曲线。步数太少(<10),错误修剪和潜力激发不充分;步数太多(>25),模型会陷入过度探索,生成长度失控的文本,反而干扰后续精细优化。10-25步是一个稳健的区间。
- 空间选择的重要性:为了验证“在预训练空间做负样本强化”是否不可替代,作者对比了“在后训练空间做负样本强化”(NSR-RL Warmup)。结果如表3所示,NSR-RL Warmup的效果甚至不如直接从零开始的GRPO。这说明,只有在预训练空间(P(y))中进行负样本抑制,才能起到重塑模型底层推理倾向、激发泛化能力的作用。在后训练空间(P(y|x))中做同样的事,只是针对具体问题抑制错误答案,无法带来根本性的能力提升。
4. 实验效果与泛化能力分析
本文在多个具有挑战性的数学推理基准上进行了全面评估,包括MATH500、AMC23、AIME24/25、Minerva和OlympiadBench,并使用了Qwen3-4B和Qwen3-8B作为基础模型。
4.1 核心数学推理性能
如表1所示,DSRL在几乎所有基准测试和模型规模上都一致性地超越了包括PPO、Reinforce++、RLOO、Dr.GRPO、DAPO和GRPO在内的强基线方法。例如,在Qwen3-4B上,DSRL在AIME24和AIME25上分别比GRPO高出4.69和2.50个百分点。更重要的是,DSRL在Pass@K指标上展现了强大的优势(图4)。随着采样数量K的增加,DSRL的性能增益保持稳定甚至扩大,这表明它不仅仅是提升了“最优解”的概率,而是整体提升了高质量解空间的多样性和密度。模型在多次采样中,能产生更多不同的、但都正确的推理路径。
4.2 推理行为的演化
通过跟踪模型在训练过程中产生的推理行为(如设定子目标、枚举、验证、回溯),可以发现(图5):标准RL由于受限于初始策略,这些复杂推理行为的出现缓慢且有限。而DSRL在NSR-PreRL阶段就迅速催生了这些行为,并在整个训练过程中保持了更高的出现频率。这证明,预训练空间的优化解除了条件约束的枷锁,释放了模型进行严格自我校正和复杂结构化探索的内在能力。
4.3 分布外泛化能力
一个优秀的优化方法不应只过拟合特定任务。作者在GPQA-Diamond(高难度QA)、MMLU-Pro(多任务理解)、BBH(复杂推理)和HumanEval(代码生成)等分布外基准上进行了测试。结果(表2)令人振奋:DSRL在知识密集型任务(GPQA, MMLU-Pro)上取得了显著提升(Qwen3-4B上分别+3.79和+5.37),在代码生成(HumanEval)上也表现优异。这说明,通过预训练空间优化所建立的“更强基础”,赋予了模型更好的泛化性和任务迁移能力。
4.4 错误模式的内化分析
图6展示了训练过程中,训练集上“完全解决”(所有采样均正确)和“完全未解决”(所有采样均错误)问题数量的变化。DSRL在NSR-PreRL阶段就迅速增加了“完全解决”问题的数量,并减少了“完全未解决”的问题。这表明,NSR-PreRL不是靠运气偶然碰对答案,而是系统性地内化了核心的错误模式逻辑,从根源上减少了失败的可能性。这为后续的RL阶段奠定了极其扎实的基础,使其可以专注于优化那些“接近正确”或“具有特异性难点”的问题。
5. 总结与展望
预训练空间强化学习代表了一种思维范式的转变:从仅仅在模型输出的“表层”进行条件优化,深入到模型参数所定义的“底层”思维习惯进行重塑。NSR-PreRL作为其中的关键机制,其有效性揭示了“否定性学习”在构建通用、鲁棒推理能力中的非凡价值。
从工程实践角度看,DSRL提供了一套清晰、可操作的训练框架。它不需要改变基础的RL算法(如GRPO),而是通过一个前置的、短周期的NSR-PreRL预热阶段,就能显著提升最终性能、加速收敛并增强泛化能力。对于从事LLM对齐和推理能力开发的团队来说,这是一个性价比极高的改进方案。
我个人在实际复现和思考这类方法时的体会是,其成功很大程度上依赖于高质量、可验证的奖励信号。在数学推理这类有明确对错的任务上,奖励清晰,NSR的效果立竿见影。但在开放域对话、创意写作等奖励函数更模糊、更复杂的场景下,如何设计有效的负样本信号,如何定义“错误”,将是更大的挑战。此外,NSR-PreRL阶段引发的生成长度增长,需要仔细监控,避免失控,文中提到的10-25步预热区间是一个重要的经验参数。
未来,这一方向可能与模型编辑、持续学习、模块化网络等结合。例如,能否将NSR机制设计成一个常驻的、低开销的“内部审查模块”,在模型推理的每一步进行实时错误抑制?或者,将预训练空间的优化目标从单一的最终答案正确性,扩展到对推理链本身质量的奖励(如连贯性、简洁性、创新性),从而培养更优秀的“思维习惯”?预训练空间强化学习这扇门刚刚打开,里面无疑还有更广阔的天地等待探索。