86
社区成员
发帖
与我相关
我的任务
分享
论文标题:《ExpeL: LLM Agents Are Experiential Learners》
💡 背景:
大型语言模型(LLM)具备丰富的世界知识,利于决策类任务,但微调代价高且可能削弱泛化能力,且许多强模型为闭源;基于提示的代理(如 ReAct、Reflexion)避免参数更新但缺乏跨任务的持久学习能力。
🎯 研究问题 / 动机:
如何让 LLM 代理在不更新模型参数的情况下从跨任务经验中学习,保留并重用跨任务知识、提升性能并能迁移到新领域,同时兼容闭源模型并在数据受限下有效?
🧠 研究思路(高层):
将代理比作学生:自主收集轨迹(成功/失败),从中抽取可读的经验洞见,保存成功轨迹以便检索;测试时将这些洞见与相似成功示例一并作为上下文供 LLM 使用,从而实现无参数更新的学习。
🧩 方法:
三阶段流程——(1) 使用类似 Reflexion 的重试机制收集经验轨迹,(2) 用指令式 LLM 对成功/失败对和成功列表执行 ADD/EDIT/UPVOTE/DOWNVOTE 操作以提取并维护洞见列表,(3) 评估时将任务说明拼接洞见并通过 Faiss+嵌入检索 top-k 相似成功轨迹作为 few-shot 示例;迁移通过用少量目标示例调整洞见实现。
🧪 实验设计:
在 HotpotQA、ALFWorld、WebShop、FEVER 四个文本基准上做四折验证,比较 ReAct/Act 和 Reflexion 基线,进行洞见提取、检索策略、经验数量与多样性的消融实验,并测试从 HotpotQA 到 FEVER 的迁移能力。
🏆 主要结果:
ExpeL 在各域上持续优于 ReAct/Act;洞见提取与相似成功轨迹检索两者缺一不可;更多且多样的经验提升效果;从源任务提取的洞见能正向迁移到 FEVER;将 ExpeL 与任务重试(Reflexion)结合可进一步提高成功率;这些改进均在不更新模型参数的前提下实现。
