LIVE-SWE-AGENT:首个支持运行时自进化的软件工程智能体,SWE-bench Verified 修复率达 77.4%

@莫得名字 2025-12-25 20:08:40

在 LLM 驱动的软件工程智能体(Software Engineering Agent)领域,当前主流方法(如 SWE-agent、Agentless、AutoCodeRover)普遍采用静态架构设计——即工具集、工作流、提示模板等在部署前固定,无法在任务执行过程中动态优化。这种“一次性设计、全局适用”的范式存在两大根本性局限:

  1. 设计空间无限,人工优化成本极高:最优智能体架构依赖大量试错,而 SWE-bench 单次运行成本高达数百美元;
  2. 泛化性差:为特定模型(如 GPT-4)或基准定制的智能体,在其他 LLM 或任务上性能骤降。

针对这一瓶颈,UIUC 研究团队在最新论文 《LIVE-SWE-AGENT: Can Software Engineering Agents Self-Evolve on the Fly?》 中提出 首个运行时自进化软件工程智能体。其核心思想是:智能体本身也是软件,应能像人类程序员一样,在解决真实问题的过程中即时修改自身工具与逻辑

实验表明,LIVE-SWE-AGENT 在 SWE-bench Verified 上达到 77.4% 的单次修复成功率(pass@1),超越所有现有系统(包括最强商业方案);在更难的 SWE-Bench Pro 上达 45.8%,为当前 SOTA。更关键的是,它无需离线训练、无需预构建工具库,仅从一个极简的 bash-only 智能体(mini-SWE-agent)出发,在任务执行中自主创建、调试、复用定制化工具


动机:为何需要“活”的智能体?

作者指出,当前自进化智能体(如 DGM、SICA)存在三大缺陷:

  • 依赖昂贵离线训练:DGM 单次训练成本超 $22,000,且需完整 SWE-bench 数据集;
  • 产出静态智能体:进化后的智能体固定,无法针对单个任务动态调整;
  • 泛化性差:在 SWE-bench 上训练的智能体,在其他任务上表现不佳。

💡 核心洞见:与其在任务外“预训练”一个通用智能体,不如让智能体在任务内“即时创造”专用工具——这正是 LIVE-SWE-AGENT 的设计哲学。


LIVE-SWE-AGENT 方法论:运行时自进化的三要素

LIVE-SWE-AGENT 基于 mini-SWE-agent(仅支持 bash 命令)构建,通过三项关键机制实现自进化:

1. 自主工具创建(On-the-Fly Tool Creation)

  • 初始状态:只能使用 grepcatsed 等基础 bash 命令;
  • 进化机制:在每一步决策中,智能体可选择:
    • 执行现有命令(如 python reproduce.py
    • 创建新工具(通过 cat << 'EOF' > tool.py 写入 Python 脚本)
  • 工具示例
    • 通用编辑器:支持多行替换、插入、删除,并返回成功/失败状态;
    • 领域专用分析器:如 MARC 文件解析器,用于处理二进制出版物记录。

2. 运行时反思触发(Runtime Reflection Trigger)

  • 关键设计:在每次环境反馈后,强制智能体反思

    “Reflect on the previous trajectories and decide if there are any tools you can create to help you with the current task.”

  • 作用
    • 避免智能体陷入“盲目试错”循环;
    • 引导其将重复性、多步操作抽象为工具;
    • 在理解问题本质后(如发现需解析特殊文件格式),主动创建专用工具

3. 无需离线训练的在线进化

  • 零预训练:所有工具均在任务执行中动态生成;
  • 零额外成本:工具创建与问题解决在同一成本预算内完成(默认 $3/任务);
  • 模型无关:已在 Claude 4.5 Sonnet、GPT-5 等多个 LLM 上验证有效。

实验结果:全面超越 SOTA

主实验(SWE-bench Verified & Pro)

系统

SWE-bench Verified

SWE-Bench Pro

LIVE-SWE-AGENT

77.4%

45.8%

Proprietary SOTA

≤74.2%

≤43.9%

SWE-agent

56.7%

43.6%

Agentless

27.4%

  • 77.4% 为当前所有公开/非公开系统中最高(截至 2025 年 11 月);
  • 成本仅 $0.48/任务,远低于商业方案($2–$4)。

与离线自进化方法对比(SWE-bench Verified-60)

方法

修复率

离线成本

DGM

53.3%

1231 小时

HGM

56.7%

512 小时

LIVE-SWE-AGENT

65.0%

0 小时

  • LIVE-SWE-AGENT 性能提升 8.3%成本降为零

工具分析:通用性与专用性并存

  • 89.7% 的工具为任务专属,证明通用工具无法覆盖所有场景
  • 工具可复用:同一任务中,智能体多次调用自创工具(如 search_code.py)。

启示与贡献

  1. 智能体应是“活”的软件:允许其在运行时修改自身,是突破 LLM 代理性能瓶颈的新范式;
  2. 工具创建 > 工具预置:动态生成的专用工具,比人工预设的通用工具更高效、更贴合任务;
  3. 低成本高效益:无需离线训练,仅通过提示工程即可实现自进化;
  4. 公平评测新基线:为不同 LLM 提供统一、强大的智能体骨架,消除架构差异对模型能力的干扰。

开源地址https://github.com/OpenAutoCoder/live-swe-agent
排行榜http://live-swe-agent.github.io

...全文
188 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

109

社区成员

发帖
与我相关
我的任务
社区描述
本社区由重庆大学与云从科技联合发起并共同运营,旨在打造一个开放、前沿、务实的知识共享与交流平台。 我们聚焦于两大前沿技术领域:通用语言大模型 (LLM)与知识协同技术。
软件工程 个人社区 重庆·沙坪坝区
社区管理员
  • 阿大abcd
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧