多模态大模型模态偏好研究:从文本主导到视觉偏好的转变与幻觉诊断
1. 项目概述:从“文本主导”到“视觉偏好”的范式转变
如果你最近在捣鼓多模态大模型,比如让它们看图说话、听音辨物,可能会发现一个有趣的现象:当你给模型一张猫的图片,配上文字“这是一只狗”,再播放一段鸟叫的音频,然后问它“这是什么?”,模型的回答很可能坚定地指向“猫”。这不是模型“聪明”地识别了图片,而是一种潜在的、系统性的偏见在起作用。过去几年,我们见证了多模态AI从“视觉-语言模型”到“全模态大语言模型”的演进。早期的VLMs,比如一些经典的图文理解模型,在处理图文冲突时,常常表现出一种“文本盲从”的倾向——文字说什么,模型就信什么,哪怕图片证据摆在眼前。这被学界广泛称为“文本主导”偏差。
然而,随着GPT-4o、Gemini、Qwen2.5-Omni这类“原生全模态大语言模型”的崛起,情况正在发生变化。这些模型不再采用传统的、松散的“编码器-对齐器-大语言模型”流水线架构,而是将所有模态(文本、图像、音频、视频)的信号投影到一个统一的表示空间中进行联合理解和推理。这种“原生集成”带来了前所未有的跨模态交互能力,但也引入了一个更微妙、更关键的问题:模态偏好。
模态偏好,简单说,就是模型在面对来自不同感官通道的、相互矛盾的信息时,内心更“信任”谁。是更相信文字的描述,还是更依赖视觉的呈现,抑或是更注重听觉的线索?这种偏好不是写在模型说明书里的,而是深藏在它那数以亿计的参数之中,潜移默化地影响着每一次推理和生成。更棘手的是,这种隐性的、不平衡的模态依赖,正是催生“跨模态幻觉”的温床——模型可能会基于它偏爱的模态“脑补”出不存在的内容,而忽略其他模态提供的真实证据。
那么,当前这些光鲜亮丽的OLLMs,它们的“内心”究竟更偏爱谁?这种偏好是如何在模型内部一层层“生长”出来的?我们又能否利用对偏好的理解,去诊断和防范那些恼人的幻觉?这正是我们今天要深入拆解的核心。基于一项前沿的学术研究,我们将系统性地量化主流OLLMs的模态偏好,揭示其从“文本主导”到“视觉偏好”的惊人转变,并深入模型内部,看看这种偏好是如何在神经网络的中后层逐渐“浮现”的。最后,我们还会探讨如何将这种内部信号转化为一个实用的“诊断工具”,用于检测跨模态幻觉,而无需任何下游任务的标注数据。对于任何正在构建或应用多模态AI系统的开发者、研究者来说,理解这些机制,是迈向构建更可靠、更可信AI系统的关键一步。
2. 量化模态偏好:构建冲突基准与评估框架
要研究模型的“偏好”,最直接的方法就是让它“做选择”,而且是在信息相互矛盾、必须二选一(或三选一)的艰难情境下。这就像心理学实验中的“冲突任务”,能最有效地暴露出决策背后的倾向性。传统的VLMs研究多集中于图文二元冲突,但OLLMs能处理更多模态,因此我们的评估框架也需要升级。
2.1 核心思路:设计“三角冲突”任务
研究团队设计了一个精巧的“三模态冲突”评估框架。其核心思想是:同时向模型输入文本、图像、音频三种模态的信息,但这三种信息在语义上是相互矛盾的,各自指向不同的答案。
举个例子(如图1所示):
- 文本:“瀑布在潺潺流水。”
- 图像:一张有人正在拉大提琴的图片。
- 音频:一段布谷鸟叫的声音。
然后,向模型提问:“以下哪个选项最准确地描述了这个示例的主要内容?” 并提供三个选项:A. 拉大提琴, B. 布谷鸟叫, C. 瀑布流水。
这三个选项分别唯一对应图像、音频和文本模态。在这种情况下,模型无法“和稀泥”,它必须选择一个。它的选择就直接揭示了在冲突情境下,它内心最看重哪个模态的信息。如果它选A,就表明它具有视觉偏好;选B是听觉偏好;选C则是文本偏好。
注意:这个任务设计的关键在于“模态无关”的提问方式。问题本身不偏向任何模态(例如,不能问“你看到了什么?”或“你听到了什么?”),从而迫使模型基于其内部的多模态融合机制做出综合判断,暴露出其潜在的权重分配偏好。
2.2 数据集构建:确保冲突的多样性与可控性
为了系统性地进行评估,需要构建一个大规模、多样化的三模态冲突数据集。研究团队以XModBench基准的“感知”子集为基础进行构建。这个子集原本包含许多(文本, 图像, 音频)三元组,且三者语义一致(例如,文本是“狗叫”,图片是狗,音频也是狗叫)。
构建冲突数据的关键步骤是“打破一致性”:
- 语义分类:将所有样本按其真实语义标签归类到六个大类:动物、人类活动、乐器/音乐、家用电器/机械、车辆/交通、自然/环境音。这确保了语义的多样性和区分度。
- 冲突组合:从这六个大类中,枚举所有可能的三元组组合(例如,
动物, 人类活动, 乐器)。对于每个三元组,从三个不同的类别中分别抽取文本、图像、音频样本,组合成一个冲突样本。这样可以系统性地覆盖不同的语义冲突场景。 - 平衡采样:在每个三元组类别组合下进行平衡采样,确保评估时不会因为某些语义组合过多而产生偏差。
通过这种方式,研究者构建了一个包含数千个冲突样本的基准数据集,为量化评估打下了坚实基础。
2.3 量化指标:模态选择率
有了冲突任务和数据集,我们需要一个简洁的指标来量化偏好。研究引入了模态选择率(Modality Selection Rate, MSR)。
其定义非常直观:对于一个给定的模态m(如视觉),MSR(m) 等于模型在所有冲突样本中,选择与该模态对应答案的样本比例。
公式化表示如下:
MSR(m) = (1/N) * Σ [模型在第i个样本的回答 == 模态m对应的选项]
其中,N是总样本数。
在一个三模态冲突任务中,如果模型完全没有偏好,随机选择,那么每个模态的MSR理论上应该接近33.3%。如果某个模态的MSR显著高于33.3%,就说明模型对该模态存在偏好;反之,如果显著低于33.3%,则说明模型忽视了该模态。
这个指标简单、直接、可解释性强,非常适合用于横向比较不同模型在不同模态上的倾向性。
2.4 实操要点与潜在陷阱
在自行尝试复现或设计类似评估时,有几个细节需要特别注意:
- 输入标准化:对于音频模态,需要统一采样率(如16kHz)和声道(单声道),确保不同模型接收的输入格式一致。对于图像,也需要统一分辨率或预处理流程。
- 提示工程:提问的措辞必须谨慎。除了要保持模态中立,还应避免使用可能引导模型思考链的复杂指令。简单的、直接的选择题格式通常最有效。
- 选项随机化:在呈现选项时,必须随机化A、B、C的顺序,以消除模型可能存在的“位置偏好”(例如,总是倾向于选择第一个或最后一个选项)。
- 温度参数:在推理时,应将温度参数设置为0,以确保模型输出的确定性,使实验结果可复现。这对于闭源API调用的模型可能无法控制,但需要在报告中注明。
- 模型输出解析:需要编写健壮的解析逻辑,从模型的生成文本中准确提取出它选择的选项字母(A/B/C)。这可能需要处理模型各种可能的输出格式(如“答案是A”、“我认为是A”、“选项A”等)。
忽略这些细节,可能会导致评估结果包含噪声,甚至产生误导性的结论。例如,如果未随机化选项顺序,一个原本没有模态偏好的模型可能会表现出虚假的“位置偏好”,从而污染MSR的测量结果。
3. 主流OLLMs模态偏好全景图:视觉崛起与音频失语
利用上述框架,研究团队对10个具有代表性的OLLMs进行了大规模评估,包括开源模型(如Qwen2.5-Omni系列、MiniCPM-o、OmniVinci)和闭源模型(Gemini系列)。结果揭示了一些颠覆传统认知的趋势。
3.1 核心发现:从“文本主导”到“视觉偏好”的集体转向
评估结果最令人惊讶的结论是:与传统VLMs普遍存在的“文本主导”现象不同,大多数OLLMs在面临三模态冲突时,表现出显著的“视觉偏好”。
图2展示了所有模型在三模态冲突下的MSR。以Gemini 3.1 Pro为例,其视觉模态的MSR高达72%,而文本模态的MSR仅为7%,音频模态为21%。这意味着,当文本说“瀑布”、图片是“大提琴”、音频是“鸟叫”时,Gemini 3.1 Pro在超过七成的情况下会选择相信图片。类似地,Gemini 3 Flash的视觉MSR达到了82%,视觉偏好极为强烈。
在评估的10个模型中,有8个模型的视觉MSR超过了50%(即高于随机选择水平),成为主导性偏好。只有Ming-Lite-Omni 1.5和Qwen3-Omni-30B-A3B-Instruct两个模型表现出了轻微的文本偏好(文本MSR为52%),但它们的视觉MSR也依然不低(分别为43%和47%)。
这个发现的意义何在? 它表明,随着模型架构从“对齐”走向“原生统一”,多模态信息整合的动力学发生了根本变化。视觉信息在统一的表示空间中可能获得了更强的表征能力或更优的优化路径,导致模型在冲突时更倾向于采信视觉证据。这对于应用开发者是一个重要提示:当你使用OLLMs处理图文、音视频混合内容时,需要意识到模型可能更“看重”画面,文本描述的影响力可能不如在传统VLM中那么大。
3.2 双模态冲突下的偏好层级
为了更细致地理解偏好,研究还测试了所有两两模态组合的冲突情况(文本+图像、图像+音频、文本+音频)。结果如图3所示,呈现出清晰的偏好层级:
- 文本 vs 图像:在所有模型中,图像的MSR均高于文本。这再次印证了视觉偏好在两两比较中依然成立。
- 图像 vs 音频:在所有模型中,图像的MSR均高于音频。视觉相对于听觉的优势非常稳固。
- 文本 vs 音频:在所有模型中,文本的MSR均高于音频。
一个贯穿始终的结论是:无论与谁配对,音频模态的MSR始终是最低的。 在三模态冲突中,所有模型的音频MSR均低于21%,多数在10%以下,Ming-Lite-Omni 1.5的音频MSR甚至低至1%。在双模态冲突中,音频也总是被配对模态(无论是文本还是图像)所压制。
这表明,当前一代的OLLMs普遍存在对音频信息的系统性忽视。尽管它们被设计为“全模态”,但在模态权重分配上远未达到平衡。音频信息在模型内部的表征强度或与语言模型的融合程度,可能显著弱于视觉和文本。这对于涉及音频理解的应用(如视频内容分析、会议纪要生成、智能客服)提出了警示:模型可能会忽略音频中的关键信息,导致生成内容与实际情况不符。
3.3 结果解读与模型选型启示
这些量化结果为我们在实际项目中选型和调优模型提供了重要依据:
- 任务适配性:如果你的应用场景高度依赖视觉理解(如图像描述、视觉问答、文档图表分析),那么当前这些具有视觉偏好的OLLMs可能是更合适的选择,它们对视觉线索更敏感。反之,如果你的场景以文本逻辑推理为主,或需要高度均衡地权衡图文信息,则需要警惕模型的视觉偏好可能带来的偏差。
- 音频相关应用需谨慎:对于任何涉及音频理解的任务,不能假设当前OLLMs能像处理图文一样可靠地处理声音。必须进行更严格的评估,或考虑采用专门的音频处理模块进行增强。
- 模型对比:不同模型之间的偏好强度存在差异。例如,Gemini系列(尤其是Flash版本)表现出极强的视觉偏好,而Qwen3-Omni-30B等更大参数量的模型则相对更均衡一些。在选择模型时,除了看整体的性能基准,也可以将“模态偏好”作为一个特定的评估维度。
- 提示设计的调整:了解模型的偏好后,我们可以通过提示工程进行一定程度的纠偏。例如,如果担心模型过于依赖图片而忽略文本细节,可以在指令中明确强调“请仔细阅读文本描述”或“基于所有信息进行综合判断”。
4. 偏好从何而来:层间探测揭示的内部演化机制
知道了模型“偏爱谁”还不够,我们更想知道这种偏好是“如何产生”的。是模型一接收到输入就“偏心眼”,还是在推理过程中逐渐“形成”了倾向?为了回答这个问题,研究采用了层间线性探测这一经典的可解释性技术。
4.1 探测方法:在模型的每一层安装“偏好传感器”
Transformer模型由多个层(Layer)堆叠而成,每一层都对输入表示进行逐步加工和抽象。层间探测的基本思想是:在模型的每一层输出位置,接入一个简单的分类器(如单层MLP),去预测我们感兴趣的性质(这里是模态偏好),然后观察这个分类器的预测能力随着层深的变化。
具体操作流程如下(如图4所示):
- 数据准备:使用前述的三模态冲突数据集,并记录模型对每个样本的最终输出(即它选择了哪个模态)。
- 特征提取:对于每个样本,在模型推理时,提取每一层Transformer Decoder在最后一个token位置对应的隐藏状态。这个位置通常聚合了整个输入序列的上下文信息。
- 标签构建:为了提供更丰富的监督信号,不使用硬标签(0/1),而是使用“软标签”。具体来说,提取模型在最终输出层,对三个选项token(分别对应文本、图像、音频)预测的概率,形成一个三维概率向量作为该样本的软标签。
- 训练探测头:在每一层,我们用一个简单的线性分类器(单层MLP)去学习从该层的隐藏状态映射到软标签。隐藏状态会先进行L2归一化,以消除不同层间向量幅值的影响,让探测头专注于学习方向性特征。
- 性能评估:在独立的测试集上评估每一层探测头的预测准确率。准确率越高,说明该层的隐藏状态中包含的“模态偏好”信息越清晰、越容易被线性模型解码。
通过绘制准确率随层数变化的曲线,我们就能直观地看到“模态偏好”这种高层语义概念,是在模型的哪一层开始出现、何时达到顶峰、何时又可能发生变化的。
4.2 演化图谱:偏好在中后层“涌现”并稳定
对所有评估模型进行层间探测后,得到了一个非常一致且有趣的模式(如图5所示):
模态偏好并非在浅层形成,而是在模型的中后层(大约40%到70%深度)突然“涌现”并逐渐稳定。
- 浅层(前30%): 所有模型的探测准确率都接近随机水平(0.3-0.55)。这表明,浅层网络主要编码低级的、与模态相关的特征(如边缘、纹理、音素、词元),但尚未将这些特征整合成能够指示最终“决策偏好”的高层表示。
- 中层(40%-70%): 探测准确率急剧上升。例如,Qwen2.5-Omni-7B的准确率从约0.5跃升至0.9以上。这个区间是模态偏好信息形成和强化的关键阶段。随着表示的不断抽象和融合,模型内部逐渐形成了对不同模态信息的权重分配方案。
- 深层(80%以后): 准确率出现不同程度的下降。这与之前对纯语言模型的研究发现一致:最后的几层通常负责将中间表示压缩并映射到具体的任务输出(如下一个token的概率分布),一些在中间层清晰可辨的特定信号(如这里的模态偏好)可能会被“平滑”或“覆盖”。
4.3 四阶段分解与模型规模的影响
为了更精细地刻画这一过程,研究者将偏好演化分为四个阶段(如图6所示):
- 缺失期:偏好信号尚未形成,探测准确率低。
- 涌现期:偏好信号开始出现,准确率快速攀升。研究者定义了一个基于中位数绝对偏差的阈值来确定涌现起点。
- 峰值期:偏好信号最清晰、最稳定的阶段,探测准确率达到峰值的95%以上。
- 衰退期:准确率从峰值持续下降超过2%。
分析这四阶段在不同模型上的表现,可以发现一个与模型规模相关的趋势:
- 更大规模的模型(如Qwen3-Omni-30B)倾向于在更浅的相对深度就进入“涌现期”。这可能意味着大模型具有更强的表征能力,能更快地形成高层语义概念。
- 较小规模的模型(如Qwen2.5-Omni-3B)在“峰值期”后的准确率衰退更为明显(下降0.12),而大模型(如Ming-Lite-Omni 1.5)的衰退则较轻微(下降0.03)。这表明大模型可能在高层次语义表示的保持上更加鲁棒。
4.4 表征空间的可视化验证
为了更直观地理解“偏好”在隐藏状态中是如何编码的,研究者对Qwen2.5-Omni-7B模型在几个关键层的探测头权重矩阵进行了奇异值分解,并将隐藏状态投影到前两个主方向上(如图7所示)。
- 第5层(浅层):代表文本、图像、音频的样本点完全混杂在一起,没有形成任何聚类结构。这说明浅层表示是“模态混合”的,无法区分偏好。
- 第18层(中层):不同类别的样本开始占据部分不同的区域,但仍有大量重叠。偏好信号开始显现但尚不清晰。
- 第24层(中后层/峰值期):三个类别形成了清晰可辨的聚类,类间重叠最小。这正是偏好信息被明确编码和分离的阶段。
- 第28层(深层):聚类边界变得模糊,类间重叠增加。这与准确率下降的观察相符,偏好信号在输出前被部分“稀释”。
这一可视化分析从几何角度证实了偏好信号在模型内部从无到有、从模糊到清晰、再到部分模糊的动态演化过程。
实操心得:层间探测是一个强大的工具,但它依赖于一个假设:我们关心的属性(如偏好)是“线性可分”的,即能被一个简单的线性分类器从隐藏状态中解码出来。幸运的是,对于许多高层语义属性,这个假设常常成立。在进行类似分析时,软标签的构建是关键技巧,它比硬标签提供了更平滑、信息更丰富的监督信号,能帮助探测头更好地收敛。此外,选择哪个token位置的隐藏状态也很重要,对于因果解码器模型,最后一个token的位置通常是汇总全局上下文的最佳选择。
5. 从机制理解到应用:诊断跨模态幻觉
理解了模态偏好的存在及其形成机制,一个自然而然的问题是:这有什么用?一个最直接且重要的应用就是诊断跨模态幻觉。幻觉,即模型生成与输入事实不符的内容,是多模态AI落地中的核心痛点之一。而之前的研究已经暗示,模态偏好失衡是导致幻觉的一个重要原因。
5.1 建立关联:幻觉与干扰模态偏好概率的异常升高
研究假设:当模型产生幻觉时,往往是因为它过度依赖了某个“干扰模态”的信息,而忽略了本应关注的“目标模态”。例如,在POPE数据集中,任务是判断图像中是否存在某个物体(目标模态:视觉),但问题文本可能描述了不存在的物体(干扰模态:文本)。如果模型具有文本偏好,就可能被文本误导,产生“对象幻觉”。
为了验证这一假设,研究者在三个经典的跨模态幻觉基准上进行了实验:POPE(图像-文本)、AVHBench(视频-音频双向)、AHa-Bench(音频-文本)。对于每个任务,都明确定义了目标模态和干扰模态(如表1所示)。
研究者使用在上一阶段训练好的、准确率最高的那个“偏好探测头”,对测试样本进行预测。不过,这次关注的不是模型最终选择了哪个模态,而是探测头给出的干扰模态的预测概率。
结果如图8所示,在所有四个基准测试上,都观察到了一个清晰且一致的模式:产生幻觉的样本,其干扰模态的预测概率分布,整体显著高于回答正确的样本。也就是说,当模型内部对干扰模态的“偏好信号”异常强烈时,它就越有可能忽视目标模态的证据,从而产生幻觉。
统计检验(曼-惠特尼U检验)的p值均极低(如表2所示,例如POPE的p值为1.08e-60),强有力地支持了“干扰模态偏好概率与幻觉发生存在显著相关”这一结论。这为使用偏好信号作为幻觉诊断指标提供了理论依据。
5.2 构建诊断器:无需下游数据的零样本检测
基于上述发现,一个实用的幻觉诊断工具就呼之欲出了。具体方法非常简单:
- 选择探测头:使用在偏好分析中表现最好的那个中间层(通常是峰值期)的线性探测头。
- 计算风险分数:对于任何一个输入样本,让模型进行推理,同时提取对应层的隐藏状态,输入到这个探测头中。探测头会输出一个三维概率分布(对应文本、视觉、音频的偏好概率)。我们只取干扰模态对应的概率值,将其作为该样本的“幻觉风险分数”。分数越高,说明模型内部越“偏爱”那个可能误导它的信息,产生幻觉的风险就越大。
- 设定阈值:在一个验证集上,可以根据风险分数的分布,选择一个阈值。风险分数高于该阈值的样本,就被标记为“疑似幻觉”。
这种方法最大的优势在于零样本和无任务特异性。探测头是在通用的三模态冲突数据上训练得到的,它学习的是模型内在的、与具体任务无关的偏好机制。因此,它可以被直接用来诊断不同任务、不同模态组合下的幻觉,而无需任何下游任务的标注数据来重新训练。
5.3 性能验证与案例分析
研究者在三个幻觉基准上对比了该方法与两个基线方法:1) 随机猜测;2) 使用第一层(浅层)的探测头。评估指标采用了AUROC(衡量整体区分能力)、AUPRC(在类别不平衡时更可靠)和最优F1分数。
如表3所示,该方法在所有模型和所有基准上都取得了显著优于基线方法的效果。例如,在POPE数据集上,该方法在Qwen2.5-Omni-7B、MiniCPM-o-2.6和Qwen3-Omni-30B三个模型上的平均AUROC达到了0.94,而随机基线和早期探测头的AUROC都只在0.5左右徘徊。这证明幻觉检测信号确实是特定于中后层的,并且与偏好高度相关。
图9展示了几个具体的诊断案例:
- POPE案例:当模型正确回答“图片中没有勺子”时,探测头给出的视觉(目标)偏好概率高达0.81,文本(干扰)概率仅0.17。而当模型幻觉“图片中有汽车”时,情况反转:视觉概率骤降至0.21,文本概率飙升至0.76。探测头成功捕捉到了这种内部偏好的剧烈偏移。
- AHa-Bench案例:任务是根据音频判断是否有吉他声。在正确样本中,音频(目标)偏好概率为0.63;而在幻觉样本中(模型错误地认为狗吠发生在人声之后),音频概率降至0.28,而文本(干扰)概率高达0.70。探测头再次通过干扰模态概率的异常升高发出了预警。
注意事项与局限:
- 探测头校准:不同模型、不同层的探测头输出的概率值范围可能不同。直接比较绝对值可能有问题。更稳健的做法是在同一模型/同一探测头下,使用相对分数(如与历史基线比较)或进行概率校准。
- 非偏好型幻觉:这种方法主要检测由“模态竞争与偏好失衡”导致的幻觉。对于其他原因引起的幻觉(如知识错误、逻辑谬误),可能效果有限。
- 计算开销:需要在前向传播时提取中间层激活,并运行一个额外的轻量级探测头,会引入少量额外的计算和内存开销。在生产环境中需要权衡精度与效率。
- 阈值选择:最优阈值依赖于具体的任务和数据集分布,可能需要一个小的校准集来确定。
尽管有这些局限,这种基于内部偏好信号的诊断方法为我们提供了一种全新的、低成本的幻觉检测视角。它不需要收集昂贵的幻觉标注数据,而是直接利用模型自身的“脑活动”信号,为构建更可靠的多模态AI系统增添了一个有力的工具。