让大型语言模型充分利用上下文

FLYForeverCC 2025-11-06 12:14:37

论文标题：《Make Your LLM Fully Utilize the Context》

🧾 背景： 现代大型语言模型能处理很长的输入（4K–32K+ token），但常常忽略长上下文中间的信息——“中间丢失（lost-in-the-middle）”问题，限制了长文问答与摘要等任务的效果。

🔎 研究问题 / 动机： 作者假设常规模型训练引入了位置偏差（重要信息多出现在开头或结尾），因此挑战是如何训练模型使其认识到重要信息可以出现在上下文任意位置。

💡 研究思路（直觉）： 与其改架构，不如通过数据显式监督：构造使信息均匀分布的长上下文训练样本，强制模型检索单段（局部）和多段（跨段）信息，从而学会关注任意位置。

🛠️ 方法： 提出 IN2（INformation-INtensive）训练：将语料切为约128 token 段，使用 GPT-4-Turbo 生成细粒度与多跳 QA，并将段落随机拼接成 4K–32K 的长上下文（答案可能出现在任意位置），对 Mistral-7B 进行指令调优（得到 FILM-7B），并通过长度平衡与数据混合避免偏差。

🧪 实验设计： 设计 VAL Probing（三类 ~32K 检索任务：文档句子（双向检索）、代码函数（向后检索）、数据库实体（向前检索）），并在 LongBench 的真实长上下文任务上评估，比较 FILM-7B 与骨干模型及其他长上下文模型，同时做与常规模式指令调优的对照实验。

🏆 结果与结论： 经 IN2 训练的 FILM-7B 显著缩小“中间丢失”差距，在 VAL Probing 上成绩优异（某些探测与 GPT-4-Turbo 相当或更优），真实长上下文任务也有提升（如 NarrativeQA F1 从 23.5 提升到 26.9），且保留短上下文能力，表明合成的信息密集长上下文监督可以有效泛化。

...全文

34 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

FILM：让大型语言模型充分利用上下文 项目介绍 FILM（Fully Utilize the Context）是一个旨在解决大型语言模型（LLM）在处理长上下文时遇到的“中间迷失”问题的开源项目。该项目基于Mistral-7B-Instruct-v0.2模型，通过应用信息密集（Information-Intensive, In2）训练方法，成功训练出了FILM-7B模型。FILM-7B能够在32...

揭秘In-Context Learning(ICL)：大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]

大型语言模型（LLM）是一类深度学习模型，旨在处理和理解海量自然语言数据。简单地说，大型语言模型可以定义为人工智能/机器学习模型，它们试图解决与文本生成、摘要、翻译、问答（Q&A）等相关的 NLP 任务，从而实现更有效的人机交流。这就是为什么 LLM 需要处理和理解海量文本数据，并学习句子中单词之间的模式和关系。大型语言模型（LLM）之所以被称为 “大型”，是因为它们在大型文本语料库中预先训练了大量参数（1 亿多个），用于处理/理解和生成自然语言文本，以完成各种 NLP 任务。

ChatGPT 的巨大成功激发了越来越多的开发者兴趣，他们希望利用 OpenAI 提供的 API 或者私有化模型，来开发基于大型语言模型的应用程序。尽管大型语言模型的调用相对简单，但要创建完整的应用程序，仍然需要大量的定制开发工作，包括API集成、互动逻辑、数据存储等等。为了解决这个问题，从 2022 年开始，许多机构和个人相继推出了多个开源项目，旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。其中一个备受关注的项目就是 LangChain 框架。

《扩散型大语言模型的长上下文处理能力研究》摘要本研究首次系统比较了扩散型LLMs（如LLaDA）与传统自回归LLMs（如LLaMA3）在长上下文任务中的表现。实验发现：1）扩散型LLMs在直接外推时能保持稳定的困惑度；2）在"大海捞针"任务中，当上下文超长时，扩散模型展现出独特的局部感知能力，而自回归模型完全失效。基于RoPE缩放理论，研究提出了无需训练的LongLLaDA方法，有效扩展了上下文窗口。结果表明扩散型LLMs遵循既定的扩展定律，且在特定长文本任务中优于自回归模型。这项工作

通用语言大模型及知识协同技术

86

社区成员

60

社区内容

发帖

与我相关

我的任务

软件工程个人社区重庆·沙坪坝区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章