AgentGym-RL:通过多轮强化学习训练具备长时程决策能力的大语言模型智能体

FLYForeverCC 2025-11-04 23:41:40

论文标题:《AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning》
💡 背景。

论文讨论了训练能在现实环境中进行多回合、长时程决策的自主动作型大语言模型代理的需求,指出以往强化学习研究多聚焦单回合任务或依赖监督微调,缺乏可用于从零开始端到端训练多回合代理的统一框架。

🎯 研究问题 / 动机。
作者锁定三类问题:一是缺少覆盖多样真实场景且模块化可扩展的 RL 框架;二是在线 RL 在多回合任务上常出现优化不稳定(长 horizon 容易训练崩溃);三是如何在长时程训练中有效平衡探索与利用尚无公认方案。

Xi 等 - 2025 - AgentGym-RL Train…

🧭 研究思路(高层)。
核心思路是构建开源的 AgentGym-RL(解耦环境/代理/训练的统一框架),并提出一种课程式的交互尺度策略 ScalingInter-RL:用较短交互轮数先学会利用(exploitation),随后逐步放大交互上限以引导更安全有效的探索和长时程能力形成。

Xi 等 - 2025 - AgentGym-RL Train…

🧩 方法(解决方案)。
工程上实现了基于 server–client 的环境模块、支持并行 rollout 的 agent 与训练模块,并集成主流策略梯度算法(PPO、GRPO、REINFORCE++、RLOO)及可靠性改进。算法上通过设置单调增长的交互上限序列 h1<⋯<hnh_1<\dots<h_nh1​<⋯<hn​(每隔 Δ 步增加 δ_h)来在训练阶段先约束交互、后扩展,从而兼顾早期稳健学习与后期多回合探索。

📊 实验设计与结论要点。
实验覆盖五类场景(WebArena、Deep Search、TextCraft、BabyAI、SciWorld),以 Qwen-2.5 的 3B/7B 为主干对比多种开闭源模型;结果表明 AgentGym-RL 联合 ScalingInter-7B 在多项任务中达到了或接近 SOTA(例如 BabyAI、TextCraft、SciWorld),并验证了 ScalingInter-RL 在训练稳定性和最终性能上的显著提升,同时显示后训练与测试时的交互/计算扩展比仅扩大模型参数更有效。

 

 

...全文
27 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

86

社区成员

发帖
与我相关
我的任务
社区描述
本社区由重庆大学与云从科技联合发起并共同运营,旨在打造一个开放、前沿、务实的知识共享与交流平台。 我们聚焦于两大前沿技术领域:通用语言大模型 (LLM)与知识协同技术。
软件工程 个人社区 重庆·沙坪坝区
社区管理员
  • 重大阿大
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧