被 AutoGLM 秀一脸,这才是 Agent 该有的样子

存内计算开发者 2024-11-29 17:48:57

 

 

转载自特工宇宙

 Agent 已经成为了行业共识,但现在的 Agent 具体是什么并没有形成共识。

我们曾在之前许多次讨论过什么是 Agent,其中 Langchain 就有一个很好定义:Agent 是使用 LLM 来决定应用的控制流系统

此外,还有一个我很喜欢的略有些抽象的解释:以前的 AI Copilot 是一个助手,你问它答,然后自己再主动将得到的答案应用到生活当中。而 Agent 能够根据你的需求,自己反思规划,与你交互,并直接执行任务

 如果你还是无法 Get 到 Agent 是个啥,那么在今天,智谱「Agent 交互新体验」OpenDay 上发布的 升级版 AutoGLM,就是一个很具象很贴切的例子。

 

AutoGLM 是智谱于上个月发布的“住在手机里的 AI 管家”,基于自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」的第一个产品化的 AI Agent。

用户可以通过文字或语音指令,让 AI Agent 模拟人类操作手机,实现大模型从表达到执行的范式转变

 

 

而一个月后的今天,智谱又对 AutoGLM 进行了升级,带来了更好的产品体验,向更智能的方向进步!

AutoGLM 的这一次升级具体包括:

1. 复杂步骤与循环操作:可以自主执行超过 50 步无打断操作,还可以实现操作流程复现。

2. 跨 App 操作:具有更强大的泛化能力和思维链,支持复杂任务跨 App 操作。

3. 记忆与快捷指令:在用户授权下,AutoGLM 能记住过往选择,用户触发特定指令后,AI 会自动采取对应行动

4. AI 主动决策:对于用户的模糊指令,可以主动帮用户做决策。

 一想到能够解放双手,用嘴提需求 AI 就能控制我的手机完成任务,就非常激动。

 

 

于是我们第一时间申请了内测,并对 AutoGLM 进行了测试。

有时候在看电视的时候,发现了某个网红或者梗不太了解,于是就会暂停拿手机去搜搜关注一下,现在直接命令 AutoGLM 就行。比如让它帮我打开某音关注下听泉赏宝

 

再比如让它打开某团给我点个常吃的烧烤(打工人们的时间都太宝贵了,能省一点是一点吧www)。

再比如打开淘宝买个键盘(这还挺好的,平台经常为了留存和变现,搞些有的没的活动和广告,一不小心就掉进去了,现在说两句话 AI 就直接帮你直达结果了)。

此外,打开官方文档可以发现 AutoGLM 能做的不只有这些,还包括超多能力!

 

本质上,AutoGLM 是基于 AI Agent 强大的任务规划能力以及屏幕界面信息理解能力(使得任务的操作执行不再受限于简单任务场景或 API 调用,也不再需要用户手动搭建复杂繁琐的 Workflow)仅通过自然语言指令即可实现复杂任务的快速执行。

在真实使用过程中,用户还会出现很多意想不到的情况,此时 Agent 可以运用其一定的判断与自我纠错能力,并且可以在任务执行的过程中持续与用户交互反馈,同时还可以调用多种工具,根据用户的要求精准完成操作。

 

除了在安卓有 AutoGLM 的 App,这次智谱还带来了 AutoGLM-Web

AI Agent 可以理解用户的指令,自动为用户在网页上做站内检索、多链接总结。甚至进一步实现生成 arXiv 日报,搭建 GitHub 仓库,在微博超话签到等个性化功能,极大提升用户的工作效率。

 

 

值得一提的是,除了强大的 AutoGLM,网页版清言插件还搭载了量子速度、量子速写等 AI 实用工具。

使用量子速读功能,AI 可以根据用户指令搜索并打开网页,阅读总结网页内容;使用量子速写功能,可以在网站平台用 AI 帮助撰写评论。

 

One More Thing,智谱还带来了全新的 GLM-PC!

这是可以操作 PC 的桌面应用,用户通过简单的一句话就能快速执行复杂任务。

基于 CogAgent 模型的视觉理解能力和任务规划能力,GLM-PC 可以理解屏幕界面的信息,在使用过程中,能够根据页面信息进行计划更改和自我纠错,根据用户的指令完成任务。

比如我想看战狼了,不用点来点去打字啥的,直接跟 Agent 说就行。

 

我有一个大胆的想法,是不是可以批量高情商回复池塘里的鱼了?

 

在 AI Agent 的范式中,Agent 理解界面、感知环境、规划任务、使用工具,最终完成任务。

而在智谱看来,对照业界对人工智能的分级,AI Agent 在 L3 使用工具能力有了极大提升,同时也开启了面向 L4 自我学习能力升级的旅程。

 

无论是手机端还是 Web 端、PC 端,都是智谱构建 GLM-OS 的不同尝试,这是以大模型为中心的通用计算系统。

AutoGLM 和 CogAgent 有着同样一个目标,那就是能够实现模仿人类的 Plan-Do-Check-Act 循环,像人一样形成自我反馈和自我提升

因此,我们可以将智谱发布的这些 AI Agent 产品视为 GLM-OS pre,也就是目前可以体验到的惊艳创新,实际上也只是大模型通用计算系统的初级阶段。

 

我们相信,随着大模型技术的持续推进,AI Agent 对人机交互变革对重塑才刚刚开始!!!

 

...全文
13 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

3,425

社区成员

发帖
与我相关
我的任务
社区描述
首个存内开发者社区,是整合产学研各界资源优势,搭建的学习与实践平台,提供存内架构学习,平台算法部署实践,存内计算线下训练以及AI时代大模型追踪,从理论到实践,供开发者体验未来第三极算力架构。
其他 企业社区
社区管理员
  • 存内计算开发者社区
  • Hundred++
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  • 奖品兑换上新:

100积分 - 品牌赞助托特包 (单个账号限兑换5个)

200积分-罗技M240无线鼠标 ( 单个账号限兑换3个)

400积分-马歇尔入耳式耳机 (单个账号限兑换2个)

600积分-Cherry MIX 3.0键盘 (单个账号限兑换2个)

800积分- 雷切Pro游戏手柄 (单个账号限兑换1个)

1000积分-小米/Redmi显示器A27 IPS版27英寸100Hz(单个账号限兑换1个)

1200积分-Switch 积分(单个账号限兑换1个)

 

  • 积分规则:

 

创作积分:

1,发布文章获取20积分

2,文章内容加精30积分

 

互动积分:

1,发布评论互动积分:2积分

2,点赞文章获取积分:1积分

 

活动积分:

活动参与积分以每场活动规则为准

 

试试用AI创作助手写篇文章吧