86
社区成员
发帖
与我相关
我的任务
分享论文标题:《Make Your LLM Fully Utilize the Context》
🧾 背景: 现代大型语言模型能处理很长的输入(4K–32K+ token),但常常忽略长上下文中间的信息——“中间丢失(lost-in-the-middle)”问题,限制了长文问答与摘要等任务的效果。
🔎 研究问题 / 动机: 作者假设常规模型训练引入了位置偏差(重要信息多出现在开头或结尾),因此挑战是如何训练模型使其认识到重要信息可以出现在上下文任意位置。
💡 研究思路(直觉): 与其改架构,不如通过数据显式监督:构造使信息均匀分布的长上下文训练样本,强制模型检索单段(局部)和多段(跨段)信息,从而学会关注任意位置。
🛠️ 方法: 提出 IN2(INformation-INtensive)训练:将语料切为约128 token 段,使用 GPT-4-Turbo 生成细粒度与多跳 QA,并将段落随机拼接成 4K–32K 的长上下文(答案可能出现在任意位置),对 Mistral-7B 进行指令调优(得到 FILM-7B),并通过长度平衡与数据混合避免偏差。
🧪 实验设计: 设计 VAL Probing(三类 ~32K 检索任务:文档句子(双向检索)、代码函数(向后检索)、数据库实体(向前检索)),并在 LongBench 的真实长上下文任务上评估,比较 FILM-7B 与骨干模型及其他长上下文模型,同时做与常规模式指令调优的对照实验。
🏆 结果与结论: 经 IN2 训练的 FILM-7B 显著缩小“中间丢失”差距,在 VAL Probing 上成绩优异(某些探测与 GPT-4-Turbo 相当或更优),真实长上下文任务也有提升(如 NarrativeQA F1 从 23.5 提升到 26.9),且保留短上下文能力,表明合成的信息密集长上下文监督可以有效泛化。
