SWE-agent：通过代理-计算机接口实现自动化软件工程的范式突破

@莫得名字 2025-12-25 19:40:56

在仓库级软件修复（Repository-level Software Repair）任务中，如何让大语言模型（LLM）？现有方法多直接复用人类交互界面（如 Linux Shell、VSCode），但 LLM 与人类在认知能力、上下文处理、错误恢复等方面存在本质差异，导致性能受限。

来自普林斯顿大学的研究团队在 NeurIPS 2024 发表的 SWE-agent 论文首次提出 代理-计算机接口（Agent-Computer Interface, ACI）这一新范式，并构建了一个面向软件工程任务的专用 ACI。在 SWE-bench 上，SWE-agent 使用 GPT-4 Turbo 实现 12.47% 的修复成功率（pass@1），远超此前 SOTA 的 3.8%；在 HumanEvalFix 上更是达到 87.7%，验证了其在函数级修复中的强大能力。

更重要的是，SWE-agent 揭示了一个核心设计原则：为 LLM 代理量身定制的交互接口，比直接复用人类 UI 更有效。

动机：为何人类 UI 不适合 LLM 代理？

论文指出，当前 LLM 代理（如 AutoCodeRover、SWE-Agent 原型）多在 Linux Shell 中操作，但 Shell 存在三大问题：

命令粒度过细、文档冗长
如 sed、grep 等命令选项繁多，LLM 难以准确使用，常因参数错误导致编辑失败。
缺乏结构化反馈
Shell 命令成功执行后常无输出（如 rm file.py），LLM 无法确认操作是否生效，易重复执行或误判状态。
错误恢复能力弱
一次语法错误编辑（如缩进错误）若未被及时纠正，会污染后续上下文，引发级联失败。

SWE-agent 方法论：四大 ACI 设计原则

SWE-agent 围绕 “面向 LLM 优化” 提出四大设计原则，并据此构建 ACI：

1. 命令应简单易懂（Simple & Understandable）

提供专用命令：find_file、search_file、search_dir 替代 ls+cd+grep 组合；
每个命令仅 1–3 个参数，文档简洁，降低 LLM 理解负担。

2. 操作应紧凑高效（Compact & Efficient）

文件编辑：edit start:end replacement_text 一步完成多行替换；
文件查看：open + goto/scroll 支持高效导航，避免 cat 淹没上下文。

3. 环境反馈应信息丰富但简洁（Informative but Concise）

编辑后自动显示更新后的文件片段；
若命令无输出（如 rm），主动返回 "Your command ran successfully..."；
历史观察（>5 步前）自动折叠，避免上下文膨胀。

4. 引入守卫机制加速错误恢复（Guardrails for Error Recovery）

编辑守卫：每次 edit 后运行 flake8 检查语法，若出错则：
- 拒绝应用更改；
- 返回错误类型 + 修改前后代码对比；
- 要求 LLM 修正后重试。

实验结果：全面超越基线

主实验（SWE-bench）

系统	模型	% Resolved	$ Avg Cost
RAG (非交互)	GPT-4 Turbo	1.31%	$0.13
Shell-only	GPT-4 Turbo	11.00%	$1.46
SWE-agent	GPT-4 Turbo	12.47%	$1.59
SWE-agent	Claude 3 Opus	10.46%	$2.59

相对 Shell-only 提升 13%（11.0% → 12.5%）；
在 SWE-bench Lite 上，18.0% 修复率，显著优于基线。

消融实验（Table 3）

无编辑守卫：15.0% → 12.0%（↓3.0%）；
全文件显示（vs 100 行窗口）：12.7%（↓5.3%）；
无演示（demonstration）：16.3%（↓1.7%）。

启示与贡献

ACI 是提升 LLM 代理性能的关键：无需微调模型，仅通过接口设计即可显著提升性能。
LLM 代理的行为可预测：成功轨迹通常遵循“复现 → 定位 → 编辑 → 测试”模式（见 Figure 16）。
失败主因是实现错误：52% 的失败案例属于“错误实现”或“过度特化”，而非定位失败。
成本效益高：88% 的成功案例在 $2.5 内完成，远低于预算上限 $4。

开源地址：https://swe-agent.com

...全文

148 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

软件工程师在复杂多变的环境中工作，需要不断适应需求变化、从经验中迭代学习，并基于新见解重新考虑方法。然而当前基于大型语言模型（LLM）的软件代理通常遵循线性、顺序的流程，无法回溯或探索替代解决方案，限制了其在初始方法无效时重新思考策略的能力。为了解决这些挑战，本文提出了SWE-Search，这是一种多代理框架，将蒙特卡洛树搜索（MCTS）与自我改进机制相结合，以提升软件代理在仓库级软件任务上的性能。SWE-Search通过扩展传统的MCTS，引入了混合值函数，利用LLM进行数值估计和定性评估。

SWE-agent 是一款由 Princeton NLP 实验室主导开发的开源智能体系统，旨在构建面向真实软件开发任务的自动化执行链条。它通过高质量的 prompt 工程、细粒度任务拆解与多轮指令反馈机制，结合 GPT-4 的强大推理与代码生成能力，实现了从读取 GitHub issue、理解上下文、编辑代码、提交 PR 到响应评审意见的完整闭环。项目在 Meta 开源代码库上进行了系统评估，并提供了标准化接口与任务控制模块，成为 Agentic 软件开发方向的重要参考实现。

本文深入剖析了mini-swe-agent的设计哲学与核心架构。该项目通过仅约100行核心代码，创新性地将复杂软件工程任务转化为Bash命令序列，由大模型驱动执行，实现了高效的自动化Bug修复。其极简设计摒弃了传统复杂框架，强调模型兼容性、操作透明度和易于沙盒化，在SWE-bench基准测试中展现出强大性能。

SWE-agent是一款强大的AI驱动软件开发工具，它通过Agent Computer Interfaces技术赋能软件工程语言模型，实现从问题描述到代码执行的全流程自动化。本文将为新手和普通用户详细解析SWE-agent的核心功能、工作流程及实用技巧，帮助你快速上手这款终极AI编程助手。 ## SWE-agent是什么？核心功能与优势 SWE-agent（Software Engineeri

SWE-bench 通过。

通用语言大模型及知识协同技术

109

社区成员

81

社区内容

发帖

与我相关

我的任务

软件工程个人社区重庆·沙坪坝区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章