86
社区成员
发帖
与我相关
我的任务
分享https://arxiv.org/pdf/2505.17612
背景:智能体就是大模型加提示词,其行为由提示词语义决定,其性能受大模型能力影响
问题:如何让基于大参数模型的智能体,指导基于小参数模型的智能体学习,逐步提升推理能力?
方法:智能体蒸馏
(1)根据Google的ReAct模型,智能体可以通过“提示词-智能体行为-大模型观察”的迭代过程,逐步优化智能体行为;
(2)第1和3步骤由基于大参数模型的智能体执行,第2步由基于小参数模型的智能体执行,可以达到“智能体蒸馏”目的。
观察:
(1)实验结果没有特别厉害,或许之后也不能正式发表,但是一个有趣的思路;
(2)智能体问题聚焦在智能体的提示词设计、行为学习、工具利用、环境反馈等,而本研究给出了智能体学习的新思路,这些能力终将汇聚在某个应用场景,例如游戏、机器人等。
