OpenHands:面向通用智能体的开源平台,支持软件工程、网页交互与多模态任务

@莫得名字 2025-12-30 16:57:04

在 LLM 智能体(AI Agent)研究迅猛发展的当下,研究者面临三大核心挑战:

  1. 工具碎片化:每个新任务都需要重新设计工具、环境与评估流程;
  2. 复现困难:多数 SOTA 系统(如 SWE-agent、GPTSwarm)缺乏完整开源实现;
  3. 评估不统一:不同论文使用不同基准、提示模板与成本计算方式,难以横向比较。

针对这一现状,来自 UIUC、CMU、Yale、All Hands AI 等机构的联合团队在 ICLR 2025 发表 OpenHands(原名 OpenDevin)——一个开源、模块化、可扩展的通用智能体平台。其核心贡献在于:

提供一套统一的智能体-计算机接口(Agent-Computer Interface, ACI),支持软件工程、网页浏览、多模态理解、数学推理等 15+ 基准任务,并在 SWE-bench Lite 上达到 26.0% 修复成功率(Claude 3.5 Sonnet),与最强开源系统持平,且完全可复现、可商用(MIT 许可)。

更关键的是,OpenHands 不仅是一个框架,更是一个活跃的开源社区:截至论文提交,已获 32K+ GitHub Stars2.1K+ PRs188+ 贡献者,涵盖学术界与工业界。


动机:为何需要统一的智能体平台?

作者指出,当前智能体研究存在“重复造轮子”问题:

  • SWE-agent 仅支持软件修复;
  • WebArena 仅支持网页交互;
  • AgentBench 仅提供 OS 级指令,缺乏结构化工具;
  • AutoGen、CrewAI 虽支持多智能体,但缺乏安全沙箱标准化评估

核心洞见:智能体研究需要一个 “操作系统级”平台——提供统一运行时、工具集、评估框架与用户界面,而非孤立的原型系统。


OpenHands 架构:四大核心组件

OpenHands 的设计围绕四大原则展开(见 Figure 2):

1. 事件流驱动的智能体定义(Event Stream–Based Agent Definition)

  • 智能体通过 动作(Action)与 观察(Observation)交互;
  • 所有交互通过 事件流(Event Stream)进行,支持历史回溯、中断、重放;
  • 支持任意 LLM(GPT-4、Claude、DeepSeek)作为推理引擎。

2. 安全沙盒运行时(Secure Docker-Based Runtime)

  • 每个任务在独立 Docker 容器中运行,支持任意基础镜像(Ubuntu、PyTorch、Node.js);
  • 通过 RESTful API 通信,后端发送 Action,前端执行并返回 Observation;
  • 支持增量镜像构建(Figure 5):基于哈希缓存,避免重复安装依赖。

 

 

3. 可扩展的智能体技能库(Extensible Agent Skills)

  • 预置 AgentSkills 库(agentskills.py),包含:
    • 文件操作open_file, edit_file, scroll_up/down
    • 代码执行execute_ipython, run_bash
    • 多模态解析parse_pdf, parse_image(调用 GPT-4V)
    • 网页交互:集成 BrowserGym,支持 click, type, hover 等 30+ 动作
  • 所有技能通过 JSON Schema 描述,LLM 可通过函数调用方式使用。

4. 多智能体协作与用户交互

  • 支持 主-辅智能体委托(Delegation):如 CodeActAgent 调用 BrowsingAgent;
  • 提供 Web UI(Figure 1):实时可视化智能体动作(如执行命令、编辑代码、浏览网页);
  • 用户可随时中断并提供反馈,实现人机协同。

 

实验结果:通用性与性能兼备

主实验:15 个基准上的统一评估

任务类型

基准

模型

成功率

成本

软件工程

SWE-bench Lite

claude-3-5-sonnet

26.0%

$1.10

网页交互

WebArena

gpt-4o

39.8%

问答

GAIA

gpt-4o

32.1%

SQL 生成

BIRD

gpt-4o

56.0%

工具调用

ToolQA

gpt-4o

47.2%

$0.91

  • 同一 CodeActAgent 无需修改提示,即可在三大任务类别中均取得竞争力性能;
  • SWE-bench Lite 上,性能与 Aider、AutoCodeRover 相当,但完全开源、无 1-shot 提示泄露

Web 浏览能力

 

  • BrowsingAgent v1.0 在 MiniWoB++ 上达 40.8%(gpt-4o),显著优于 RL 训练模型(34.6%);
  • 通过 BrowserGym 支持 DOM、Accessibility Tree、截图等多模态观察。

启示与贡献

  1. 平台化是智能体研究的未来:避免重复造轮子,加速科研迭代;
  2. 安全沙盒是工业落地的前提:任意 Docker 镜像支持使智能体可在真实开发环境中运行;
  3. 统一评估推动公平比较:提供 15 个基准的标准化评估脚本与成本追踪;
  4. 社区驱动模式成功验证:32K+ Stars 证明开源策略的有效性。

开源地址https://github.com/All-Hands-AI/OpenHands
文档与演示https://docs.all-hands.dev

...全文
204 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

109

社区成员

发帖
与我相关
我的任务
社区描述
本社区由重庆大学与云从科技联合发起并共同运营,旨在打造一个开放、前沿、务实的知识共享与交流平台。 我们聚焦于两大前沿技术领域:通用语言大模型 (LLM)与知识协同技术。
软件工程 个人社区 重庆·沙坪坝区
社区管理员
  • 阿大abcd
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧