83
社区成员
发帖
与我相关
我的任务
分享UIUC &英伟达:LLM三体协同让LLM自我进化
传统强化学习提升大语言模型(LLM)能力依赖人工标注数据和可验证奖励,成本高、通用性差。UIUC与NVIDIA团队提出的 Multi-Agent Evolve(MAE) 打破这一限制,让LLM在完全无人工监督下,通过三体协作实现自我演化。

核心亮点:
三代理共进机制:MAE将同一个LLM分为三种角色——Proposer(命题者)、Solver(解答者)、Judge(评审者),形成闭环自演化系统。
无需人工标签:通过“LLM-as-a-Judge”自评分机制,模型可自行生成奖励信号,摆脱人工标注和外部验证环境。
难度驱动共演化:Judge为Solver打分,同时奖励Proposer生成高质量且对Solver具有挑战性的问题,实现对抗式共进。
质量与稳定保障:引入格式奖励与问题质量过滤,避免模型生成退化或无意义内容。
强化学习融合优化:采用Task-Relative REINFORCE++算法,使每个代理独立计算优势值并同步更新,提高收敛效率与稳定性。
全领域泛化能力:支持数学、代码、推理、常识问答等多任务场景,在Qwen2.5-3B上平均性能提升 4.54%,超越有监督微调(SFT)与Absolute Zero Reasoner(AZR)等强基线。
无参考自进化能力:仅凭16条初始自生成问题即可启动,逐步扩展问题池并保持持续性能提升。
应用场景 / 实验结果:
适合 研究者与模型训练团队 探索无需人工标注的自我改进方法。
实验显示:在无参考数据条件下,MAE(zero)依然显著提升模型推理与理解能力;在有参考条件下,在 ID任务达68.95%,OOD任务43.96%,总体59.87%,全局最优。
相比SFT(需人工真值标签),MAE无需标签即可取得更高泛化性能,且训练过程稳定、可扩展至更大模型。
意义: MAE代表了LLM从“人教式学习”走向“自我进化学习”的关键一步。它让模型具备自我生成任务、自我评估、自我强化的闭环能力,为真正的 自主智能体 奠定基础。未来可扩展至更多角色、多模态任务,构建统一的“无监督智能演化平台”。
🔗 项目/论文ulab-uiuc/Multi-agent-EvolvearXiv:2510.23595