被 AutoGLM 秀一脸，这才是 Agent 该有的样子

存内计算开发者 2024-11-29 17:48:57

转载自特工宇宙

Agent 已经成为了行业共识，但现在的 Agent 具体是什么并没有形成共识。

我们曾在之前许多次讨论过什么是 Agent，其中 Langchain 就有一个很好定义：Agent 是使用 LLM 来决定应用的控制流系统。

此外，还有一个我很喜欢的略有些抽象的解释：以前的 AI Copilot 是一个助手，你问它答，然后自己再主动将得到的答案应用到生活当中。而 Agent 能够根据你的需求，自己反思规划，与你交互，并直接执行任务。

如果你还是无法 Get 到 Agent 是个啥，那么在今天，智谱「Agent 交互新体验」OpenDay 上发布的升级版 AutoGLM，就是一个很具象很贴切的例子。

AutoGLM 是智谱于上个月发布的“住在手机里的 AI 管家”，基于自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」的第一个产品化的 AI Agent。

用户可以通过文字或语音指令，让 AI Agent 模拟人类操作手机，实现大模型从表达到执行的范式转变。

而一个月后的今天，智谱又对 AutoGLM 进行了升级，带来了更好的产品体验，向更智能的方向进步！

AutoGLM 的这一次升级具体包括：

1. 复杂步骤与循环操作：可以自主执行超过 50 步无打断操作，还可以实现操作流程复现。

2. 跨 App 操作：具有更强大的泛化能力和思维链，支持复杂任务跨 App 操作。

3. 记忆与快捷指令：在用户授权下，AutoGLM 能记住过往选择，用户触发特定指令后，AI 会自动采取对应行动。

4. AI 主动决策：对于用户的模糊指令，可以主动帮用户做决策。

一想到能够解放双手，用嘴提需求 AI 就能控制我的手机完成任务，就非常激动。

于是我们第一时间申请了内测，并对 AutoGLM 进行了测试。

有时候在看电视的时候，发现了某个网红或者梗不太了解，于是就会暂停拿手机去搜搜关注一下，现在直接命令 AutoGLM 就行。比如让它帮我打开某音关注下听泉赏宝。

再比如让它打开某团给我点个常吃的烧烤（打工人们的时间都太宝贵了，能省一点是一点吧www）。

再比如打开淘宝买个键盘（这还挺好的，平台经常为了留存和变现，搞些有的没的活动和广告，一不小心就掉进去了，现在说两句话 AI 就直接帮你直达结果了）。

此外，打开官方文档可以发现 AutoGLM 能做的不只有这些，还包括超多能力！

本质上，AutoGLM 是基于 AI Agent 强大的任务规划能力以及屏幕界面信息理解能力（使得任务的操作执行不再受限于简单任务场景或 API 调用，也不再需要用户手动搭建复杂繁琐的 Workflow）仅通过自然语言指令即可实现复杂任务的快速执行。

在真实使用过程中，用户还会出现很多意想不到的情况，此时 Agent 可以运用其一定的判断与自我纠错能力，并且可以在任务执行的过程中持续与用户交互反馈，同时还可以调用多种工具，根据用户的要求精准完成操作。

除了在安卓有 AutoGLM 的 App，这次智谱还带来了 AutoGLM-Web。

AI Agent 可以理解用户的指令，自动为用户在网页上做站内检索、多链接总结。甚至进一步实现生成 arXiv 日报，搭建 GitHub 仓库，在微博超话签到等个性化功能，极大提升用户的工作效率。

值得一提的是，除了强大的 AutoGLM，网页版清言插件还搭载了量子速度、量子速写等 AI 实用工具。

使用量子速读功能，AI 可以根据用户指令搜索并打开网页，阅读总结网页内容；使用量子速写功能，可以在网站平台用 AI 帮助撰写评论。

One More Thing，智谱还带来了全新的 GLM-PC！

这是可以操作 PC 的桌面应用，用户通过简单的一句话就能快速执行复杂任务。

基于 CogAgent 模型的视觉理解能力和任务规划能力，GLM-PC 可以理解屏幕界面的信息，在使用过程中，能够根据页面信息进行计划更改和自我纠错，根据用户的指令完成任务。

比如我想看战狼了，不用点来点去打字啥的，直接跟 Agent 说就行。

我有一个大胆的想法，是不是可以批量高情商回复池塘里的鱼了？

在 AI Agent 的范式中，Agent 理解界面、感知环境、规划任务、使用工具，最终完成任务。

而在智谱看来，对照业界对人工智能的分级，AI Agent 在 L3 使用工具能力有了极大提升，同时也开启了面向 L4 自我学习能力升级的旅程。

无论是手机端还是 Web 端、PC 端，都是智谱构建 GLM-OS 的不同尝试，这是以大模型为中心的通用计算系统。

AutoGLM 和 CogAgent 有着同样一个目标，那就是能够实现模仿人类的 Plan-Do-Check-Act 循环，像人一样形成自我反馈和自我提升。

因此，我们可以将智谱发布的这些 AI Agent 产品视为 GLM-OS pre，也就是目前可以体验到的惊艳创新，实际上也只是大模型通用计算系统的初级阶段。

我们相信，随着大模型技术的持续推进，AI Agent 对人机交互变革对重塑才刚刚开始！！！

...全文

383 回复打赏收藏转发到动态举报

写回复

用AI写文章

切换为时间正序

请发表友善的回复…

发表回复

AutoGLM正式发布

AutoGLM升级+GLM-PC

在这个AI横行的年代，AutoGLM和实在Agent就像两个经常在酒吧里较劲的家伙，总是被人拿来做比较。今天，我们就来扒一扒，这哥俩到底谁更胜一筹。AutoGLM：自动生成语言模型的简称，这家伙自称能用最少的输入生成最像人话的句子。优点是你不用费脑子，输入关键词它就能帮你搞定一切。缺点么

AutoGLM沉思版的发布是国产AI Agent发展的重要里程碑。其"边想边干"的能力范式，不仅填补了国内在该领域的技术空白，更为AI技术的普惠化应用提供了新思路。随着4月14日开源计划的实施，预计将涌现大量基于AutoGLM技术栈的垂直应用，进一步丰富AI Agent的生态体系。尽管当前版本还存在诸多不足，但其展现的技术方向和商业策略，已经为行业开辟了新的可能性。能力融合：思考与执行边界模糊化场景深化：垂直领域专用Agent涌现人机协同：形成新型生产力关系。

存算一体开发者社区

4,333

社区成员

382

社区内容

发帖

与我相关

我的任务

其他企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

奖品兑换上新：

100积分 - 品牌赞助托特包（单个账号限兑换5个）

200积分-罗技M240无线鼠标（单个账号限兑换3个）

400积分-马歇尔入耳式耳机（单个账号限兑换2个）

600积分-Cherry MIX 3.0键盘（单个账号限兑换2个）

800积分- 雷切Pro游戏手柄（单个账号限兑换1个）

1000积分-小米/Redmi显示器A27 IPS版27英寸100Hz（单个账号限兑换1个）

1200积分-Switch 积分（单个账号限兑换1个）

积分规则：

创作积分：

参与主题征文活动，发布博文获取50积分

1，发布文章获取20积分

2，文章内容加精30积分

互动积分：

1，发布评论互动积分：2积分

2，点赞文章获取积分：1积分

活动积分：

活动参与积分以每场活动规则为准

试试用AI创作助手写篇文章吧

+ 用AI写文章