《ExpeL：LLM 智能体是经验学习者》

FLYForeverCC 2025-11-05 23:46:32

论文标题：《ExpeL: LLM Agents Are Experiential Learners》

💡 背景：
大型语言模型（LLM）具备丰富的世界知识，利于决策类任务，但微调代价高且可能削弱泛化能力，且许多强模型为闭源；基于提示的代理（如 ReAct、Reflexion）避免参数更新但缺乏跨任务的持久学习能力。

🎯 研究问题 / 动机：
如何让 LLM 代理在不更新模型参数的情况下从跨任务经验中学习，保留并重用跨任务知识、提升性能并能迁移到新领域，同时兼容闭源模型并在数据受限下有效？

🧠 研究思路（高层）：
将代理比作学生：自主收集轨迹（成功/失败），从中抽取可读的经验洞见，保存成功轨迹以便检索；测试时将这些洞见与相似成功示例一并作为上下文供 LLM 使用，从而实现无参数更新的学习。

🧩 方法：
三阶段流程——(1) 使用类似 Reflexion 的重试机制收集经验轨迹，(2) 用指令式 LLM 对成功/失败对和成功列表执行 ADD/EDIT/UPVOTE/DOWNVOTE 操作以提取并维护洞见列表，(3) 评估时将任务说明拼接洞见并通过 Faiss+嵌入检索 top-k 相似成功轨迹作为 few-shot 示例；迁移通过用少量目标示例调整洞见实现。

🧪 实验设计：
在 HotpotQA、ALFWorld、WebShop、FEVER 四个文本基准上做四折验证，比较 ReAct/Act 和 Reflexion 基线，进行洞见提取、检索策略、经验数量与多样性的消融实验，并测试从 HotpotQA 到 FEVER 的迁移能力。

🏆 主要结果：
ExpeL 在各域上持续优于 ReAct/Act；洞见提取与相似成功轨迹检索两者缺一不可；更多且多样的经验提升效果；从源任务提取的洞见能正向迁移到 FEVER；将 ExpeL 与任务重试（Reflexion）结合可进一步提高成功率；这些改进均在不更新模型参数的前提下实现。

...全文

32 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

内容概要：本文介绍了ExpeL（Experiential Learning），这是一种利用大型语言模型（LLMs）进行经验学习的新型代理方法。与传统的细调（Fine-tuning）不同，ExpeL不需要修改LLM的参数，而是通过从训练任务中自主收集经验和提取自然语言洞察来增强其性能。具体来说，ExpeL代理能够在每次交互中记录成功和失败的轨迹，并通过自然语言处理自动生成有用的知识点，在新任务执行时提供辅助决策。实验证明，ExpeL能够在多个环境中显著提高任务成功率，同时展示了一定程度的跨任务迁移学习能力。适合人群：对自然语言处理、深度强化学习以及智能代理研究感兴趣的科研工作者和技术开发者。使用场景及目标：适用于需要构建能在多次试验中逐步提高性能并适应不同类型任务的人工智能代理系统，特别是在环境复杂度高、动态变化大的实际应用背景中。其他说明：作者认为ExpeL框架未来的发展方向可以考虑加入图像输入支持，并探索开放源代码的语言模型版本。此外，尽管目前的研究侧重于文本观察任务，但引入视觉元素可能扩大这种方法的应用范围。

最近，通过利用大型语言模型中嵌入的广泛世界知识，将大型语言模型应用于决策任务的研究兴趣激增。虽然为自定义决策任务定制LLM的需求越来越大，但为特定任务微调LLM是资源密集型的，可能会削弱模型的泛化能力。此外，最先进的语言模型，如GPT-4和Claude，主要可以通过API调用访问，其参数权重仍然是专有的，对公众不可用。这种情况强调了对新方法的日益增长的需求，这种方法允许在不需要参数更新的情况下从代理体验中学习。为了解决这些问题，我们引入了体验式学习（ExpeL）代理。

最近，利用大型语言模型（LLMs）中蕴含的丰富世界知识来解决决策任务的研究兴趣激增。虽然针对特定决策任务定制大型语言模型的需求日益增长，但为特定任务微调这些模型不仅耗费资源，还可能降低模型的泛化能力。此外，像GPT-4和Claude这样的最先进语言模型主要通过API调用访问，其参数权重仍为专有信息，不向公众开放。这种情况凸显了对新方法的迫切需求，即无需参数更新就能从代理经验中学习。为解决这些问题，我们提出了经验学习（ExpeL）代理。该代理能自主收集经验，并从一系列训练任务中用自然语言提取知识。

为了支持该领域的进一步研究，作者发布了三个新的具有 130 亿参数的长上下文模型，分别称为 Giraffe：4k、16k 和 32k 的上下文模型，这些模型都是从基座 LLaMA-13B 和 LLaMA2-13B 训练的。在本文中，我们对文献进行了系统性的回顾，包括 IT 的一般方法论，IT 数据的构建，IT 模型的训练，以及在不同模式、领域和应用中的应用，同时还分析了影响 IT 结果的方面（例如，指令输出的生成，指令数据集的大小等）。因此，需要新的方法论，允许从代理经验中学习，而无需进行参数更新。

AgentFly 提出了一条在不微调 LLM 参数的前提下，让LLM 智能体持续变强的路线：把“学习”放在记忆与检索策略上，而不是放在模型权重上。核心做法是把智能体的规划阶段建模为基于记忆的 MDP，用案例推理做“从记忆取例子→复用与修订→写回记忆”的闭环，再用最大熵 Soft Q-learning学习“该取哪些案例”的检索策略，并配合非参/参数化双形态记忆实现既稳定又高效的持续学习。框架上采用规划器—执行器交替，执行器通过MCP调用外部工具。

通用语言大模型及知识协同技术

86

社区成员

60

社区内容

发帖

与我相关

我的任务

软件工程个人社区重庆·沙坪坝区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章