LIVE-SWE-AGENT：首个支持运行时自进化的软件工程智能体，SWE-bench Verified 修复率达 77.4%

@莫得名字 2025-12-25 20:08:40

在 LLM 驱动的软件工程智能体（Software Engineering Agent）领域，当前主流方法（如 SWE-agent、Agentless、AutoCodeRover）普遍采用静态架构设计——即工具集、工作流、提示模板等在部署前固定，无法在任务执行过程中动态优化。这种“一次性设计、全局适用”的范式存在两大根本性局限：

设计空间无限，人工优化成本极高：最优智能体架构依赖大量试错，而 SWE-bench 单次运行成本高达数百美元；
泛化性差：为特定模型（如 GPT-4）或基准定制的智能体，在其他 LLM 或任务上性能骤降。

针对这一瓶颈，UIUC 研究团队在最新论文 《LIVE-SWE-AGENT: Can Software Engineering Agents Self-Evolve on the Fly?》 中提出 首个运行时自进化软件工程智能体。其核心思想是：智能体本身也是软件，应能像人类程序员一样，在解决真实问题的过程中即时修改自身工具与逻辑。

实验表明，LIVE-SWE-AGENT 在 SWE-bench Verified 上达到 77.4% 的单次修复成功率（pass@1），超越所有现有系统（包括最强商业方案）；在更难的 SWE-Bench Pro 上达 45.8%，为当前 SOTA。更关键的是，它无需离线训练、无需预构建工具库，仅从一个极简的 bash-only 智能体（mini-SWE-agent）出发，在任务执行中自主创建、调试、复用定制化工具。

动机：为何需要“活”的智能体？

作者指出，当前自进化智能体（如 DGM、SICA）存在三大缺陷：

依赖昂贵离线训练：DGM 单次训练成本超 $22,000，且需完整 SWE-bench 数据集；
产出静态智能体：进化后的智能体固定，无法针对单个任务动态调整；
泛化性差：在 SWE-bench 上训练的智能体，在其他任务上表现不佳。

💡 核心洞见：与其在任务外“预训练”一个通用智能体，不如让智能体在任务内“即时创造”专用工具——这正是 LIVE-SWE-AGENT 的设计哲学。

LIVE-SWE-AGENT 方法论：运行时自进化的三要素

LIVE-SWE-AGENT 基于 mini-SWE-agent（仅支持 bash 命令）构建，通过三项关键机制实现自进化：

1. 自主工具创建（On-the-Fly Tool Creation）

初始状态：只能使用 grep、cat、sed 等基础 bash 命令；
进化机制：在每一步决策中，智能体可选择：
- 执行现有命令（如 python reproduce.py）
- 创建新工具（通过 cat << 'EOF' > tool.py 写入 Python 脚本）
工具示例：
- 通用编辑器：支持多行替换、插入、删除，并返回成功/失败状态；
- 领域专用分析器：如 MARC 文件解析器，用于处理二进制出版物记录。

2. 运行时反思触发（Runtime Reflection Trigger）

关键设计：在每次环境反馈后，强制智能体反思：

“Reflect on the previous trajectories and decide if there are any tools you can create to help you with the current task.”
作用：
- 避免智能体陷入“盲目试错”循环；
- 引导其将重复性、多步操作抽象为工具；
- 在理解问题本质后（如发现需解析特殊文件格式），主动创建专用工具。