UIUC &英伟达:LLM三体协同让LLM自我进化

重大阿大 2025-11-02 21:13:18

UIUC &英伟达:LLM三体协同让LLM自我进化

传统强化学习提升大语言模型(LLM)能力依赖人工标注数据和可验证奖励,成本高、通用性差。UIUC与NVIDIA团队提出的 Multi-Agent Evolve(MAE) 打破这一限制,让LLM在完全无人工监督下,通过三体协作实现自我演化。

 

核心亮点:

三代理共进机制:MAE将同一个LLM分为三种角色——Proposer(命题者)、Solver(解答者)、Judge(评审者),形成闭环自演化系统。

无需人工标签:通过“LLM-as-a-Judge”自评分机制,模型可自行生成奖励信号,摆脱人工标注和外部验证环境。

难度驱动共演化:Judge为Solver打分,同时奖励Proposer生成高质量且对Solver具有挑战性的问题,实现对抗式共进。

质量与稳定保障:引入格式奖励与问题质量过滤,避免模型生成退化或无意义内容。

强化学习融合优化:采用Task-Relative REINFORCE++算法,使每个代理独立计算优势值并同步更新,提高收敛效率与稳定性。

全领域泛化能力:支持数学、代码、推理、常识问答等多任务场景,在Qwen2.5-3B上平均性能提升 4.54%,超越有监督微调(SFT)与Absolute Zero Reasoner(AZR)等强基线。

无参考自进化能力:仅凭16条初始自生成问题即可启动,逐步扩展问题池并保持持续性能提升。

应用场景 / 实验结果:

适合 研究者与模型训练团队 探索无需人工标注的自我改进方法。

实验显示:在无参考数据条件下,MAE(zero)依然显著提升模型推理与理解能力;在有参考条件下,在 ID任务达68.95%,OOD任务43.96%,总体59.87%,全局最优。

相比SFT(需人工真值标签),MAE无需标签即可取得更高泛化性能,且训练过程稳定、可扩展至更大模型。

意义: MAE代表了LLM从“人教式学习”走向“自我进化学习”的关键一步。它让模型具备自我生成任务、自我评估、自我强化的闭环能力,为真正的 自主智能体 奠定基础。未来可扩展至更多角色、多模态任务,构建统一的“无监督智能演化平台”。

 

🔗 项目/论文ulab-uiuc/Multi-agent-EvolvearXiv:2510.23595

...全文
16 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

83

社区成员

发帖
与我相关
我的任务
社区描述
本社区由重庆大学与云从科技联合发起并共同运营,旨在打造一个开放、前沿、务实的知识共享与交流平台。 我们聚焦于两大前沿技术领域:通用语言大模型 (LLM)与知识协同技术。
软件工程 个人社区 重庆·沙坪坝区
社区管理员
  • 重大阿大
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧