通过泛化增强大型语言模型的知识学习能力

FLYForeverCC 2025-11-03 14:19:44

论文标题：Enhancing LLM Knowledge Learning through Generalization

🧠 背景

大规模语言模型虽含大量事实性知识，但在整合不断演化的事实时不够可靠；此前工作发现持续预训练和对多重释义文本训练能提升问答效果，但人工或模型生成的释义代价高且可能改变事实。📚
论文将传达相同事实的不同文本视为来自同一分布的样本，研究在不同释义上下文间的泛化能力与问答提取能力的关系。🔄🤔

🎯 研究问题与动机

问题是如何在不依赖昂贵或不可靠的释义生成下，提升模型获取并提取新事实知识的能力。💡
动机在于观测到释义训练能改善问答，因而提出通过提高模型在多样前文上下文下预测相同知识标记的泛化能力，来提升下游问答性能。🚀📖

🧩 研究思路 / 假设

假设为——模型在不同（未见）释义前文条件下持续预测相同事实标记的能力，与其在问答中提取该事实的能力正相关。📈
因此，增强预测在各种上下文/格式间的泛化，将提高闭卷问答表现。🗝️
作者在受控的传记数据集上做了实证验证，结果支持该假设。📊✅

🧪 方法概述

提出两种可实际部署的策略：
1️⃣ 基于格式的增强：通过改变文本格式（如加引号✨、左侧填充⬅️、随机插入空格等）生成多样化文档，保证语义与事实不变，从而避免外部释义风险。🧾
2️⃣ 泛化正则化：训练中采用 Sharpness-Aware Minimization (SAM) 🧘‍♀️，以寻求平坦解，提高对不同上下文变体的泛化能力。
此外，还将两者结合应用于指令调优阶段，以增强问句泛化效果。🎓⚙️

📊 实验设计与结论

实验在合成传记数据集与 Wiki2023-film 上进行，对 Qwen-2 1.5B 与 LLaMA-2 7B 进行持续预训练和指令调优，指标包括 EM、Recall、F1。📈
结果显示，格式增强 + SAM 在两阶段均显著提升（如传记 CPT 上 EM 提升约 50 点✨），明显优于传统文本增强（如 EDA），并与真实释义结合时效果更佳。
消融实验表明，两种方法各自贡献明确，结合时效果最佳。🏆🧩✅