OpenHands：面向通用智能体的开源平台，支持软件工程、网页交互与多模态任务

@莫得名字 2025-12-30 16:57:04

在 LLM 智能体（AI Agent）研究迅猛发展的当下，研究者面临三大核心挑战：

工具碎片化：每个新任务都需要重新设计工具、环境与评估流程；
复现困难：多数 SOTA 系统（如 SWE-agent、GPTSwarm）缺乏完整开源实现；
评估不统一：不同论文使用不同基准、提示模板与成本计算方式，难以横向比较。

针对这一现状，来自 UIUC、CMU、Yale、All Hands AI 等机构的联合团队在 ICLR 2025 发表 OpenHands（原名 OpenDevin）——一个开源、模块化、可扩展的通用智能体平台。其核心贡献在于：

提供一套统一的智能体-计算机接口（Agent-Computer Interface, ACI），支持软件工程、网页浏览、多模态理解、数学推理等 15+ 基准任务，并在 SWE-bench Lite 上达到 26.0% 修复成功率（Claude 3.5 Sonnet），与最强开源系统持平，且完全可复现、可商用（MIT 许可）。

更关键的是，OpenHands 不仅是一个框架，更是一个活跃的开源社区：截至论文提交，已获 32K+ GitHub Stars、2.1K+ PRs、188+ 贡献者，涵盖学术界与工业界。

动机：为何需要统一的智能体平台？

作者指出，当前智能体研究存在“重复造轮子”问题：

SWE-agent 仅支持软件修复；
WebArena 仅支持网页交互；
AgentBench 仅提供 OS 级指令，缺乏结构化工具；
AutoGen、CrewAI 虽支持多智能体，但缺乏安全沙箱与标准化评估。

核心洞见：智能体研究需要一个 “操作系统级”平台——提供统一运行时、工具集、评估框架与用户界面，而非孤立的原型系统。

OpenHands 架构：四大核心组件

OpenHands 的设计围绕四大原则展开（见 Figure 2）：

1. 事件流驱动的智能体定义（Event Stream–Based Agent Definition）

智能体通过动作（Action）与观察（Observation）交互；
所有交互通过 事件流（Event Stream）进行，支持历史回溯、中断、重放；
支持任意 LLM（GPT-4、Claude、DeepSeek）作为推理引擎。

2. 安全沙盒运行时（Secure Docker-Based Runtime）

每个任务在独立 Docker 容器中运行，支持任意基础镜像（Ubuntu、PyTorch、Node.js）；
通过 RESTful API 通信，后端发送 Action，前端执行并返回 Observation；
支持增量镜像构建（Figure 5）：基于哈希缓存，避免重复安装依赖。

3. 可扩展的智能体技能库（Extensible Agent Skills）

预置 AgentSkills 库（agentskills.py），包含：
- 文件操作：open_file, edit_file, scroll_up/down
- 代码执行：execute_ipython, run_bash
- 多模态解析：parse_pdf, parse_image（调用 GPT-4V）
- 网页交互：集成 BrowserGym，支持 click, type, hover 等 30+ 动作
所有技能通过 JSON Schema 描述，LLM 可通过函数调用方式使用。

4. 多智能体协作与用户交互

支持 主-辅智能体委托（Delegation）：如 CodeActAgent 调用 BrowsingAgent；
提供 Web UI（Figure 1）：实时可视化智能体动作（如执行命令、编辑代码、浏览网页）；
用户可随时中断并提供反馈，实现人机协同。

实验结果：通用性与性能兼备

主实验：15 个基准上的统一评估

任务类型	基准	模型	成功率	成本
软件工程	SWE-bench Lite	claude-3-5-sonnet	26.0%	$1.10
网页交互	WebArena	gpt-4o	39.8%	—
问答	GAIA	gpt-4o	32.1%	—
SQL 生成	BIRD	gpt-4o	56.0%	—
工具调用	ToolQA	gpt-4o	47.2%	$0.91