《ExpeL:LLM 智能体是经验学习者》

FLYForeverCC 2025-11-05 23:46:32

 

论文标题:《ExpeL: LLM Agents Are Experiential Learners》

💡 背景:
大型语言模型(LLM)具备丰富的世界知识,利于决策类任务,但微调代价高且可能削弱泛化能力,且许多强模型为闭源;基于提示的代理(如 ReAct、Reflexion)避免参数更新但缺乏跨任务的持久学习能力。


🎯 研究问题 / 动机:
如何让 LLM 代理在不更新模型参数的情况下从跨任务经验中学习,保留并重用跨任务知识、提升性能并能迁移到新领域,同时兼容闭源模型并在数据受限下有效?


🧠 研究思路(高层):
将代理比作学生:自主收集轨迹(成功/失败),从中抽取可读的经验洞见,保存成功轨迹以便检索;测试时将这些洞见与相似成功示例一并作为上下文供 LLM 使用,从而实现无参数更新的学习。


🧩 方法:
三阶段流程——(1) 使用类似 Reflexion 的重试机制收集经验轨迹,(2) 用指令式 LLM 对成功/失败对和成功列表执行 ADD/EDIT/UPVOTE/DOWNVOTE 操作以提取并维护洞见列表,(3) 评估时将任务说明拼接洞见并通过 Faiss+嵌入检索 top-k 相似成功轨迹作为 few-shot 示例;迁移通过用少量目标示例调整洞见实现。


🧪 实验设计:
在 HotpotQA、ALFWorld、WebShop、FEVER 四个文本基准上做四折验证,比较 ReAct/Act 和 Reflexion 基线,进行洞见提取、检索策略、经验数量与多样性的消融实验,并测试从 HotpotQA 到 FEVER 的迁移能力。


🏆 主要结果:
ExpeL 在各域上持续优于 ReAct/Act;洞见提取与相似成功轨迹检索两者缺一不可;更多且多样的经验提升效果;从源任务提取的洞见能正向迁移到 FEVER;将 ExpeL 与任务重试(Reflexion)结合可进一步提高成功率;这些改进均在不更新模型参数的前提下实现。

 

 

...全文
32 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

86

社区成员

发帖
与我相关
我的任务
社区描述
本社区由重庆大学与云从科技联合发起并共同运营,旨在打造一个开放、前沿、务实的知识共享与交流平台。 我们聚焦于两大前沿技术领域:通用语言大模型 (LLM)与知识协同技术。
软件工程 个人社区 重庆·沙坪坝区
社区管理员
  • 重大阿大
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧