Arxiv'25 Distilling LLM Agent into Small Models with Retrieval and Code Tools

阿二发 2025-06-16 23:08:12

https://arxiv.org/pdf/2505.17612

背景:智能体就是大模型加提示词,其行为由提示词语义决定,其性能受大模型能力影响

问题:如何让基于大参数模型的智能体,指导基于小参数模型的智能体学习,逐步提升推理能力?

方法:智能体蒸馏

(1)根据Google的ReAct模型,智能体可以通过“提示词-智能体行为-大模型观察”的迭代过程,逐步优化智能体行为;

(2)第1和3步骤由基于大参数模型的智能体执行,第2步由基于小参数模型的智能体执行,可以达到“智能体蒸馏”目的。

观察:

(1)实验结果没有特别厉害,或许之后也不能正式发表,但是一个有趣的思路;

(2)智能体问题聚焦在智能体的提示词设计、行为学习、工具利用、环境反馈等,而本研究给出了智能体学习的新思路,这些能力终将汇聚在某个应用场景,例如游戏、机器人等。

 

...全文
124 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

86

社区成员

发帖
与我相关
我的任务
社区描述
本社区由重庆大学与云从科技联合发起并共同运营,旨在打造一个开放、前沿、务实的知识共享与交流平台。 我们聚焦于两大前沿技术领域:通用语言大模型 (LLM)与知识协同技术。
软件工程 个人社区 重庆·沙坪坝区
社区管理员
  • 重大阿大
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧