109
社区成员
发帖
与我相关
我的任务
分享在 LLM 智能体(AI Agent)研究迅猛发展的当下,研究者面临三大核心挑战:
针对这一现状,来自 UIUC、CMU、Yale、All Hands AI 等机构的联合团队在 ICLR 2025 发表 OpenHands(原名 OpenDevin)——一个开源、模块化、可扩展的通用智能体平台。其核心贡献在于:
提供一套统一的智能体-计算机接口(Agent-Computer Interface, ACI),支持软件工程、网页浏览、多模态理解、数学推理等 15+ 基准任务,并在 SWE-bench Lite 上达到 26.0% 修复成功率(Claude 3.5 Sonnet),与最强开源系统持平,且完全可复现、可商用(MIT 许可)。
更关键的是,OpenHands 不仅是一个框架,更是一个活跃的开源社区:截至论文提交,已获 32K+ GitHub Stars、2.1K+ PRs、188+ 贡献者,涵盖学术界与工业界。
作者指出,当前智能体研究存在“重复造轮子”问题:
核心洞见:智能体研究需要一个 “操作系统级”平台——提供统一运行时、工具集、评估框架与用户界面,而非孤立的原型系统。
OpenHands 的设计围绕四大原则展开(见 Figure 2):



open_file, edit_file, scroll_up/downexecute_ipython, run_bashparse_pdf, parse_image(调用 GPT-4V)click, type, hover 等 30+ 动作
实验结果:通用性与性能兼备
|
任务类型 |
基准 |
模型 |
成功率 |
成本 |
|---|---|---|---|---|
|
软件工程 |
SWE-bench Lite |
claude-3-5-sonnet |
26.0% |
$1.10 |
|
网页交互 |
WebArena |
gpt-4o |
39.8% |
— |
|
问答 |
GAIA |
gpt-4o |
32.1% |
— |
|
SQL 生成 |
BIRD |
gpt-4o |
56.0% |
— |
|
工具调用 |
ToolQA |
gpt-4o |
47.2% |
$0.91 |

开源地址:https://github.com/All-Hands-AI/OpenHands
文档与演示:https://docs.all-hands.dev