AgentGym-RL：通过多轮强化学习训练具备长时程决策能力的大语言模型智能体

FLYForeverCC 2025-11-04 23:41:40

论文标题：《AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning》
💡 背景。
论文讨论了训练能在现实环境中进行多回合、长时程决策的自主动作型大语言模型代理的需求，指出以往强化学习研究多聚焦单回合任务或依赖监督微调，缺乏可用于从零开始端到端训练多回合代理的统一框架。

🎯 研究问题 / 动机。
作者锁定三类问题：一是缺少覆盖多样真实场景且模块化可扩展的 RL 框架；二是在线 RL 在多回合任务上常出现优化不稳定（长 horizon 容易训练崩溃）；三是如何在长时程训练中有效平衡探索与利用尚无公认方案。

Xi 等 - 2025 - AgentGym-RL Train…

🧭 研究思路（高层）。
核心思路是构建开源的 AgentGym-RL（解耦环境/代理/训练的统一框架），并提出一种课程式的交互尺度策略 ScalingInter-RL：用较短交互轮数先学会利用（exploitation），随后逐步放大交互上限以引导更安全有效的探索和长时程能力形成。

Xi 等 - 2025 - AgentGym-RL Train…

🧩 方法（解决方案）。
工程上实现了基于 server–client 的环境模块、支持并行 rollout 的 agent 与训练模块，并集成主流策略梯度算法（PPO、GRPO、REINFORCE++、RLOO）及可靠性改进。算法上通过设置单调增长的交互上限序列 h1<⋯<hnh_1<\dots<h_nh1<⋯<hn（每隔 Δ 步增加 δ_h）来在训练阶段先约束交互、后扩展，从而兼顾早期稳健学习与后期多回合探索。

📊 实验设计与结论要点。
实验覆盖五类场景（WebArena、Deep Search、TextCraft、BabyAI、SciWorld），以 Qwen-2.5 的 3B/7B 为主干对比多种开闭源模型；结果表明 AgentGym-RL 联合 ScalingInter-7B 在多项任务中达到了或接近 SOTA（例如 BabyAI、TextCraft、SciWorld），并验证了 ScalingInter-RL 在训练稳定性和最终性能上的显著提升，同时显示后训练与测试时的交互/计算扩展比仅扩大模型参数更有效。