因果干预揭示语言模型如何学习句法:从填充语-空位依赖到跨结构泛化
1. 项目概述:从“因果干预”的视角,看语言模型如何学习句法
在自然语言处理领域,我们常常惊叹于大语言模型流畅的文本生成能力,但一个更深层、也更棘手的问题是:这些模型究竟是如何“理解”语言的?它们是真的掌握了人类语言中那些抽象、复杂的规则,还是仅仅在模仿海量数据中的统计模式?要回答这个问题,我们需要一把能撬开模型“黑箱”的螺丝刀,去直接观察其内部的工作机制。这正是“可解释性”研究,特别是“因果干预”方法的核心使命。
本次探讨聚焦于一个经典的句法难题:填充语-空位依赖。简单来说,就是句子中的一个成分(填充语)从其原本该在的语法位置(空位)被“移走”,在另一个位置被解释。比如在特殊疑问句“What did the student read _?”中,“What”是填充语,它逻辑上是动词“read”的宾语,但其位置被移到了句首,在原宾语位置留下了一个看不见的“空位”(用_表示)。类似的结构也出现在话题化中,如“This book, the author read _.”。对人类而言,理解这类句子意味着我们的大脑能跨越线性词序,建立起“填充语”和“空位”之间的长距离依赖关系,并且能意识到这种依赖关系在不同的句法结构(如疑问句和话题句)背后可能共享着同一套抽象的处理机制。
那么,语言模型能学会这种机制吗?更重要的是,如果只给模型提供与人类儿童学习语言时相似规模和质量的有限数据(而非互联网级别的海量语料),它们还能发展出这种抽象、共享的句法表征吗?这正是马里兰大学Atrey Desai和Sathvik Nair等研究者在论文《Filling in the Mechanisms: How do LMs Learn Filler-Gap Dependencies under Developmental Constraints?》中试图回答的问题。他们不再满足于仅仅观察模型的输出概率(即“惊异值”),而是动用了分布式对齐搜索这种先进的因果干预工具,直接对模型内部表征进行“手术”,以检验其是否真的编码了“填充语-空位”这一概念。
这项工作的技术价值在于,它将模型评估从“表现如何”推进到了“为何如此”。通过因果干预,我们可以实证性地检验模型内部是否存在一个跨结构的、因果有效的“填充语-空位”特征方向。其应用场景深远:一方面,它为我们设计更高效、更接近人类学习方式的模型提供了直接的神经证据和约束;另一方面,它也对“语言习得是否需要先天语言特异性偏见”这一长期争论提供了来自计算建模的新视角。接下来,我将带你深入这项研究,拆解其方法、复现其逻辑,并分享从“模型外科医生”视角获得的一些实操心得。
2. 核心思路拆解:当句法理论遇见因果可解释性
要理解这项研究,我们需要先跳出单纯的工程视角,融合语言学理论和现代可解释性方法。其核心思路是一条清晰的逻辑链:首先定义一个精确的、可操作的句法概念(填充语-空位依赖),然后利用因果干预工具(DAS)在模型内部寻找与该概念对应的神经表征,最后在受控的发展性数据(BabyLM)下观察该表征的涌现过程,并与人类习得时间线进行对比。
2.1 填充语-空位依赖:语言学中的“经典谜题”
填充语-空位依赖之所以成为检验语言理解的试金石,是因为它触及了语言的核心属性——层级性与抽象性。它要求理解者不是简单地进行词序匹配,而是构建一个非局部的、结构化的关系。例如,在句子“Which robot did the engineer that designed the software for _ praise?”中,填充语“which robot”与空位的关联需要跨越嵌套的从句边界,这对仅基于表层共现的统计学习来说是巨大的挑战。
在语言学理论中,一个核心假设是:尽管特殊疑问句、话题化、关系从句等结构在表层形式上千差万别,但它们可能共享一个底层的、抽象的句法操作机制(例如“移位”)。人类心理语言学实验也支持这一点,成人在处理不同类型的填充语-空位结构时,会表现出相似的行为模式(如特定的脑电反应或阅读时间增长)。因此,检验模型是否形成了跨结构的共享表征,是判断其句法知识是否“人类化”的关键。
2.2 从概率评估到因果干预:方法论上的关键跃迁
传统上,评估语言模型的句法知识主要依靠惊异值。基本思路是构造最小对比句对:一个合乎语法的包含填充语-空位的句子,和一个不合语法的、缺少填充语或空位设置错误的句子。如果模型对不合语法句子的下一个词赋予更高的惊异值(即更低的概率),我们就说模型“知道”这个句法约束。
然而,这种方法存在根本局限:
- 相关性不等于因果性:高惊异值可能源于模型捕捉到的其他表面线索(如特定的词序列),而非对底层句法规则的真正编码。
- 无法定位机制:它只能告诉我们模型最终输出是否正确,但无法揭示是模型的哪一部分、以何种方式贡献了这一判断。
- 难以检验共享性:很难通过概率直接证明模型用同一套内部机制处理不同的句法结构。
因果干预方法则提供了更强大的工具。它的哲学是:要证明某个内部表征X导致了行为Y,最直接的办法就是主动改变X,观察Y是否随之发生系统性变化。在这项研究中,研究者使用的具体工具是分布式对齐搜索。其核心思想可以类比为:假设模型内部有一个高维的“概念空间”,我们想找到代表“本句存在填充语”这个二元概念的一维方向(一个向量)。一旦找到这个方向,我们就可以进行“概念移植”手术:从一个有填充语的句子(源句)中提取这个特征,将其“注射”到一个没有填充语的句子(基句)的对应位置。如果注射后,基句的预测行为变得像源句(例如,开始预测一个空位而非一个代词),那就强有力地证明,我们找到的这个方向确实因果地控制着模型对“填充语-空位”依赖的判断。
2.3 发展性约束的引入:BabyLM挑战赛的意义
此前类似的研究(如Boguraev等人2025年的工作)已在拥有数十亿参数、训练于超大规模网络语料的大模型上,发现了跨结构共享表征的证据。但这引发了一个新的问题:这能说明人类儿童也是以这种方式学习的吗?显然不能。儿童接触的语言数据在数量(约1亿词)和质量(主要是儿童导向语音、互动对话)上与网络文本有巨大差异。
BabyLM挑战赛正是为了弥合这一差距而设计的。它提供了一个约1亿词规模的语料库,其内容经过精心筛选,模拟英语儿童到12岁左右可能接触到的语言输入。同时,它发布了在不同数据量(从100万到1亿词)上训练的模型检查点。这为研究者提供了一个独一无二的“发育观察窗”,可以逐阶段地审视句法能力是如何随着数据输入而逐步涌现的。
因此,本研究的核心假设是:如果语言模型像人类一样,主要依靠领域通用的统计学习来掌握语言,那么当给予其人类规模的数据时,它应该能发展出与人类相似的句法表征。反之,如果模型需要远超人类的数据量才能达到类似表现,则暗示人类的语言习得可能依赖于额外的、语言特异性的先天偏见来引导学习。研究通过对比高频率结构(特殊疑问句)和低频率结构(话题化)之间的表征共享与转移,来精细地检验这一假设。
3. 实验设计与实操要点:如何实施一次“神经句法手术”
理解了核心思路,我们进入实战环节。这项研究的实验设计堪称精巧,它像一套严谨的外科手术方案,旨在精准地探测模型神经表征的特定功能。下面我将拆解其关键步骤和背后的考量。
3.1 模型与数据:手术台上的“患者”与“环境”
- 模型选择:研究使用了基于GPT-2 Small架构的BabyLM-100M模型。选择它是经过深思熟虑的:
- 架构熟悉:GPT-2的Transformer架构是业界标准,其内部工作机制已被广泛研究,降低了复杂性。
- 参数规模适中:约1.24亿参数,既足够复杂以学习语言规律,又不会大到使因果干预的计算变得不可行。
- 检查点完整:提供了从1M到100M tokens共19个训练检查点,这是进行发展轨迹分析的基础。
- 语料控制:BabyLM Strict-100M语料库是关键。它并非简单的数据缩减,而是包含了儿童书籍、亲子对话记录、儿童电视节目字幕等,尽可能模拟了真实语言习得环境。这确保了观察到的任何学习困难都更可能源于学习机制本身,而非数据偏差。
3.2 句法结构设计:选择“高对比度”的探测目标
研究选取了两种填充语-空位结构进行对比,这个选择极具策略性:
- 特殊疑问句:高频结构。在儿童输入中极其常见,模型有充足的机会学习。
- 话题化:低频结构。在自然语言,尤其是儿童导向语料中几乎不出现。
这种高低频的对比设置,使得实验能敏锐地探测模型的泛化能力:模型能否将从一个丰富数据中学到的模式,迁移到一个几乎没见过例子的结构上?这直接关系到模型是学会了抽象的规则,还是仅仅记住了具体的模式。
注意:在构造实验句对时,研究者严格遵循了“最小对比”原则。例如,话题化的对比句对是:“Actually, the teacher liked him.”(基句,无语法空位) vs “Actually, the author the teacher liked _.”(源句,有语法空位)。两者仅在话题化名词短语的出现与否上有差异,最大程度控制了词汇等其他因素的干扰。
3.3 分布式对齐搜索实操详解
DAS是整个研究的“手术刀”。其操作流程可以分解为以下几步,我结合自己的理解补充一些实操中容易忽略的细节:
-
定义因果变量:首先,我们将“填充语-空位依赖”抽象为一个二元因果变量
FILLER_PRESENT ∈ {0, 1}。1代表句子中存在这种依赖,0代表不存在。这是一个关键的理论抽象,它将模糊的句法概念转化为可数学操作的对象。 -
数据准备与对齐:需要准备大量的“源句-基句”配对。源句的
FILLER_PRESENT=1,基句的FILLER_PRESENT=0。在训练DAS向量时,必须确保配对句子在除了填充语之外的其他词汇和结构上尽可能对齐,以减少噪声。论文中提到,他们为每种结构生成了数万到数百万不等的句对,以确保多样性。 -
学习对齐方向:对于模型的某一层(ℓ)和某个词元位置(p),我们初始化一个随机向量
a_{ℓ,p}。目标是通过优化,让这个向量指向的维度,能够最大程度地区分源句和基句在该位置的内部激活值。训练时,我们尝试用这个向量对基句表征进行干预(公式1),目标是使干预后的基句在下一个词预测上,更像源句(即预测空位而非代词)。通过梯度下降来优化向量a,以最小化干预后的预测与源句标签之间的交叉熵损失。PYTHON# 概念性伪代码,说明DAS干预的核心操作# h_base: 基句在层ℓ、位置p的激活向量# h_source: 源句在相同层、位置的激活向量# a: 学习到的对齐向量(单位向量)# 计算源句与基句在“填充语特征”方向上的差异feature_difference = dot_product(a, (h_source - h_base)) * a# 对基句表征进行干预:保留其原有信息,但叠加“填充语特征”h_intervened = h_base + feature_difference# 将干预后的表征 h_intervened 送回模型后续层,计算损失并更新向量a -
超参数调优:一个容易被低估的环节:原论文在附录中详细提到了超参数搜索的过程。这是因为,从在大模型(如Pythia)上表现良好的默认参数,直接迁移到BabyLM这样的小模型上,可能导致DAS向量训练不足。他们系统地尝试了不同的批次大小(8, 16, 25, 32)和训练步数(40到200步),最终发现对于BabyLM,批次大小25、训练80步(总计2000个样本)能达到稳定且较好的效果。这个细节至关重要:可解释性方法本身也需要针对具体模型进行“调参”,粗暴套用可能得到误导性的阴性结果。
-
评估指标——ODDS:干预效果如何量化?论文采用了
ODDS指标(公式2)。它本质上是比较干预前后,模型对“源句标签”和“基句标签”的偏好发生了多大程度的翻转。一个正的、较大的ODDS值,意味着干预成功地将模型的预测从基句模式“推”向了源句模式,即我们找到的向量a具有强的因果效应。
3.4 四类实验的逻辑矩阵
为了全面探测表征的性质,研究者设计了四类实验,构成了一个2x2的逻辑矩阵:
| 实验类型 | 训练DAS所用的结构 (源) | 测试DAS效果的结构 (目标) | 核心问题 |
|---|---|---|---|
| 结构内定位 | 特殊疑问句 | 特殊疑问句 | 模型能否在该结构内部形成稳定的“填充语”表征? |
| 结构内定位 | 话题化 | 话题化 | 同上,针对低频结构。 |
| 跨结构前向迁移 | 特殊疑问句 (高频) | 话题化 (低频) | 高频结构的表征知识,能否迁移到低频结构? |
| 跨结构后向迁移 | 话题化 (低频) | 特殊疑问句 (高频) | 低频结构的表征知识,能否迁移到高频结构? |
此外,他们还控制了填充语的生命性(有生 vs. 无生,如“who”/“the author” vs. “what”/“the book”),以检验表征是否与具体的词汇语义特征纠缠在一起。
4. 结果分析与深度解读:模型学到了什么,又没学到什么?
实验数据描绘了一幅关于语言模型句法习得的精细图景,其中既有令人惊讶的发现,也有符合预期的模式,更有深刻的启示。
4.1 发展轨迹:缓慢的涌现与数据的鸿沟
最核心的发现体现在发展轨迹图上。MAX ODDS(所有层和位置中最佳的干预效果)随着训练数据量的增加而单调增长。然而,关键的转折点在于:
- 10M tokens检查点:此时模型接收的数据量,大致对应2-5岁儿童的语言输入。在此检查点,模型的因果效应值(
MAX ODDS ≈ 3)仅处于“微弱到中等”水平(根据Arora等人2024年对Pythia模型族建立的基准)。 - 50M-100M tokens检查点:直到模型接收了相当于青少年(约12岁)的输入量后,才观察到较强的因果效应(
MAX ODDS > 8)。
实操心得:这个对比极具冲击力。它直接支持了 “错位涌现假说” 。人类儿童在18个月到3岁之间就已表现出对填充语-空位依赖的敏感性,而模型需要多出1-2个数量级的数据才能达到可比的表征强度。这强烈暗示,纯粹基于下一个词预测目标、没有语言特异性偏见的Transformer架构,其学习句法抽象的效率远低于人类儿童。
4.2 结构特异性与词汇助推效应:表征的“粘性”
实验结果清晰地展示了模型学习的不完美性:
-
结构内 > 跨结构:无论是特殊疑问句还是话题化,模型在结构内定位实验中的表现(
Wh->Wh,Topic->Topic),始终显著优于跨结构迁移实验(Wh->Topic,Topic->Wh)。平均差异约为1.33个ODDS单位,效应量中等。这意味着,模型学到的“填充语”表征,并非一个完全抽象、独立于具体句式框架的通用模块,而是与特定的句法结构(是疑问句还是话题句)有一定程度的绑定。 -
词汇助推效应:当干预中使用的源句和目标句在填充语的生命性上匹配时(同为有生或同为无生),干预效果显著更强。这复现了Boguraev等人(2025)的发现,并表明模型的句法表征并未完全“净化”掉词汇语义信息。这种“助推”效应类似于人类心理语言学中的“词汇增强效应”,即具体的词汇相似性可以促进句法结构的加工。这说明模型的学习是“条目敏感”的,它可能同时记住了“who...like”和“what...read”这类具体的搭配模式及其句法框架。
4.3 不对称迁移:一个反直觉的发现
最出乎意料的发现是关于迁移方向的。根据频率调制假说,研究者原本预测知识会从高频的特殊疑问句单向地流向低频的话题化(Wh->Topic更强)。但结果恰恰相反:在整个发展性数据范围内(1M-100M tokens),从话题化到特殊疑问句的迁移(Topic->Wh)效果反而更好。
如何解释这个“反哺”现象?论文给出了几种可能性:
- 表征纯度假设:高频的特殊疑问句可能发展出更复杂、更专门化的处理回路,这些回路深度整合了疑问词、助动词倒装等该结构特有的特征,导致其核心的“填充语”表征反而不易被提取和迁移。而低频的话题化,由于训练数据极少,模型可能被迫发展出一个更“干净”、更核心的“名词短语移位”表征来应对稀缺样本,这个表征反而更具通用性。
- 学习动态差异:在训练早期,模型可能先以条目特定的方式学习各种模式。随着数据增加,高频结构的表征可能因其复杂性而“过度拟合”到具体语境,而低频结构的表征由于缺乏重复巩固,反而保持了某种初始的、更简单的形态,更容易被迁移。
注意:论文在附录中指出,当模型在远超人类数据量(100M-1000M tokens)上继续训练时,这种不对称性会减弱,两种方向的迁移效果趋于接近。这提示我们,模型最终或许能学习到一个更均衡的共享表征,但这需要远超人类经验的数据。
5. 启示、局限与未来方向:对模型设计与语言习得理论的冲击
这项研究的意义远不止于一项具体的实验发现。它像一枚探针,触及了当前AI语言学习与人类语言习得关系的核心争论。
5.1 对“无偏见学习”假说的挑战
论文的结论明确指向了一点:仅凭大规模数据和领域通用的架构(如Transformer),不足以在人类尺度上复现人类句法习得的效率和泛化能力。BabyLM模型需要多得多的数据才能形成可检测的因果表征,且该表征是条目敏感、结构特定的。这为“语言习得需要先天语言特异性偏见”的观点提供了计算建模上的支持。这些偏见可能以假设空间约束、初始表征偏好或结构化归纳偏置的形式存在,帮助学习者在有限数据下快速锁定正确的语法假设。
5.2 对可解释性方法论的贡献
本研究展示了因果干预与发展性评估结合的强大力量。单纯的“终点评估”(看最终模型性能)会错过学习轨迹中丰富的信息。通过在不同训练阶段进行“切片”检查,研究者能够揭示能力是何时、以何种方式涌现的。DAS这类方法使我们能够超越相关性的观察,去建立模型内部状态与特定语言功能之间的因果联系,这是理解模型“认知”机制的关键一步。
5.3 研究的局限与待解之谜
当然,这项研究也有其边界,这些边界正是未来工作的起点:
- 语言单一性:研究仅针对英语。不同语言的填充语-空位依赖表现差异很大(例如,在挪威语或荷兰语中,模型表现就不尽相同)。结论的普适性需要跨语言验证。
- 模态与情境的缺失:BabyLM语料毕竟是文本,而儿童学习语言依赖于多模态输入(视觉、听觉)、社会互动和具身经验。纯文本模型缺失了这些关键的学习线索。
- 更复杂的句法现象:本研究聚焦于基本的填充语允准。更复杂的句法约束,如“孤岛约束”(哪些结构不允许填充语移出),是更强的句法知识测试,未来需要结合因果方法进行探究。
- 干预的维度:当前DAS寻找的是一维特征方向。但句法特征可能是以更高维的子空间形式分布的。更先进的方法如“无界DAS”可能捕捉到更丰富的因果结构。
5.4 给实践者的启发
对于从事模型研发、评测或语言认知交叉研究的同行,这项研究提供了几个切实的启发:
- 评估模型时,应加入发展性视角:不要只看最终性能。在类似BabyLM的受限数据轨迹上测试模型,能更有效地暴露出其学习机制的效率问题,并与人类发展里程碑进行有意义的对比。
- 因果可解释性是深入理解模型的利器:当你的模型在某个句法任务上表现良好时,不妨用DAS或类似工具问一句:“它到底是用什么‘知识’做出判断的?”这能帮你区分它是真的掌握了规则,还是利用了虚假的相关性。
- 关注“跨结构泛化”这一高阶能力:模型在训练分布内的任务上表现好已不稀奇。真正的挑战在于,它能否将在一个语境中学到的抽象模式,迁移到一个表面形式不同、数据稀缺的新语境中?这应成为评估模型语言理解深度的关键指标之一。
- 数据质量与 inductive bias 同样重要:这项研究暗示,在有限数据下,纯粹的统计学习存在瓶颈。未来的模型设计,或许需要在架构中巧妙地融入一些引导性的结构偏置(例如,对层级结构的隐性偏好),而不是完全依赖数据驱动。
最后,我个人在复现和思考这类实验时的一个深刻体会是:我们正在从一个“工程黑箱”时代,走向一个“心智白箱”探索时代。语言模型不再仅仅是我们使用的工具,它们也成为了我们研究语言、心智甚至学习本质的“计算被试”。每一次成功的因果干预,都像是我们为这个硅基大脑做了一次精细的脑部扫描,让我们离回答“机器如何思考语言”这个根本问题更近了一步。这条路还很长,但像这样将严谨的语言学假设、精细的心理实验设计和前沿的AI可解释性技术相结合的工作,无疑为我们照亮了前进的方向。