86
社区成员
发帖
与我相关
我的任务
分享论文标题:《AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning》
💡 背景。
论文讨论了训练能在现实环境中进行多回合、长时程决策的自主动作型大语言模型代理的需求,指出以往强化学习研究多聚焦单回合任务或依赖监督微调,缺乏可用于从零开始端到端训练多回合代理的统一框架。
🎯 研究问题 / 动机。
作者锁定三类问题:一是缺少覆盖多样真实场景且模块化可扩展的 RL 框架;二是在线 RL 在多回合任务上常出现优化不稳定(长 horizon 容易训练崩溃);三是如何在长时程训练中有效平衡探索与利用尚无公认方案。
Xi 等 - 2025 - AgentGym-RL Train…
🧭 研究思路(高层)。
核心思路是构建开源的 AgentGym-RL(解耦环境/代理/训练的统一框架),并提出一种课程式的交互尺度策略 ScalingInter-RL:用较短交互轮数先学会利用(exploitation),随后逐步放大交互上限以引导更安全有效的探索和长时程能力形成。
Xi 等 - 2025 - AgentGym-RL Train…
🧩 方法(解决方案)。
工程上实现了基于 server–client 的环境模块、支持并行 rollout 的 agent 与训练模块,并集成主流策略梯度算法(PPO、GRPO、REINFORCE++、RLOO)及可靠性改进。算法上通过设置单调增长的交互上限序列 h1<⋯<hnh_1<\dots<h_nh1<⋯<hn(每隔 Δ 步增加 δ_h)来在训练阶段先约束交互、后扩展,从而兼顾早期稳健学习与后期多回合探索。
📊 实验设计与结论要点。
实验覆盖五类场景(WebArena、Deep Search、TextCraft、BabyAI、SciWorld),以 Qwen-2.5 的 3B/7B 为主干对比多种开闭源模型;结果表明 AgentGym-RL 联合 ScalingInter-7B 在多项任务中达到了或接近 SOTA(例如 BabyAI、TextCraft、SciWorld),并验证了 ScalingInter-RL 在训练稳定性和最终性能上的显著提升,同时显示后训练与测试时的交互/计算扩展比仅扩大模型参数更有效。
