多模态大模型模态偏好研究:从文本主导到视觉偏好的转变与幻觉诊断

多模态大模型模态偏好跨模态幻觉
于 2026-06-01 03:11:34 修改
·本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述:从“文本主导”到“视觉偏好”的范式转变

如果你最近在捣鼓多模态大模型,比如让它们看图说话、听音辨物,可能会发现一个有趣的现象:当你给模型一张猫的图片,配上文字“这是一只狗”,再播放一段鸟叫的音频,然后问它“这是什么?”,模型的回答很可能坚定地指向“猫”。这不是模型“聪明”地识别了图片,而是一种潜在的、系统性的偏见在起作用。过去几年,我们见证了多模态AI从“视觉-语言模型”到“全模态大语言模型”的演进。早期的VLMs,比如一些经典的图文理解模型,在处理图文冲突时,常常表现出一种“文本盲从”的倾向——文字说什么,模型就信什么,哪怕图片证据摆在眼前。这被学界广泛称为“文本主导”偏差。

然而,随着GPT-4o、Gemini、Qwen2.5-Omni这类“原生全模态大语言模型”的崛起,情况正在发生变化。这些模型不再采用传统的、松散的“编码器-对齐器-大语言模型”流水线架构,而是将所有模态(文本、图像、音频、视频)的信号投影到一个统一的表示空间中进行联合理解和推理。这种“原生集成”带来了前所未有的跨模态交互能力,但也引入了一个更微妙、更关键的问题:模态偏好

模态偏好,简单说,就是模型在面对来自不同感官通道的、相互矛盾的信息时,内心更“信任”谁。是更相信文字的描述,还是更依赖视觉的呈现,抑或是更注重听觉的线索?这种偏好不是写在模型说明书里的,而是深藏在它那数以亿计的参数之中,潜移默化地影响着每一次推理和生成。更棘手的是,这种隐性的、不平衡的模态依赖,正是催生“跨模态幻觉”的温床——模型可能会基于它偏爱的模态“脑补”出不存在的内容,而忽略其他模态提供的真实证据。

那么,当前这些光鲜亮丽的OLLMs,它们的“内心”究竟更偏爱谁?这种偏好是如何在模型内部一层层“生长”出来的?我们又能否利用对偏好的理解,去诊断和防范那些恼人的幻觉?这正是我们今天要深入拆解的核心。基于一项前沿的学术研究,我们将系统性地量化主流OLLMs的模态偏好,揭示其从“文本主导”到“视觉偏好”的惊人转变,并深入模型内部,看看这种偏好是如何在神经网络的中后层逐渐“浮现”的。最后,我们还会探讨如何将这种内部信号转化为一个实用的“诊断工具”,用于检测跨模态幻觉,而无需任何下游任务的标注数据。对于任何正在构建或应用多模态AI系统的开发者、研究者来说,理解这些机制,是迈向构建更可靠、更可信AI系统的关键一步。

2. 量化模态偏好:构建冲突基准与评估框架

要研究模型的“偏好”,最直接的方法就是让它“做选择”,而且是在信息相互矛盾、必须二选一(或三选一)的艰难情境下。这就像心理学实验中的“冲突任务”,能最有效地暴露出决策背后的倾向性。传统的VLMs研究多集中于图文二元冲突,但OLLMs能处理更多模态,因此我们的评估框架也需要升级。

2.1 核心思路:设计“三角冲突”任务

研究团队设计了一个精巧的“三模态冲突”评估框架。其核心思想是:同时向模型输入文本、图像、音频三种模态的信息,但这三种信息在语义上是相互矛盾的,各自指向不同的答案

举个例子(如图1所示):

  • 文本:“瀑布在潺潺流水。”
  • 图像:一张有人正在拉大提琴的图片。
  • 音频:一段布谷鸟叫的声音。

然后,向模型提问:“以下哪个选项最准确地描述了这个示例的主要内容?” 并提供三个选项:A. 拉大提琴, B. 布谷鸟叫, C. 瀑布流水。

这三个选项分别唯一对应图像、音频和文本模态。在这种情况下,模型无法“和稀泥”,它必须选择一个。它的选择就直接揭示了在冲突情境下,它内心最看重哪个模态的信息。如果它选A,就表明它具有视觉偏好;选B是听觉偏好;选C则是文本偏好

注意:这个任务设计的关键在于“模态无关”的提问方式。问题本身不偏向任何模态(例如,不能问“你看到了什么?”或“你听到了什么?”),从而迫使模型基于其内部的多模态融合机制做出综合判断,暴露出其潜在的权重分配偏好。

2.2 数据集构建:确保冲突的多样性与可控性

为了系统性地进行评估,需要构建一个大规模、多样化的三模态冲突数据集。研究团队以XModBench基准的“感知”子集为基础进行构建。这个子集原本包含许多(文本, 图像, 音频)三元组,且三者语义一致(例如,文本是“狗叫”,图片是狗,音频也是狗叫)。

构建冲突数据的关键步骤是“打破一致性”:

  1. 语义分类:将所有样本按其真实语义标签归类到六个大类:动物、人类活动、乐器/音乐、家用电器/机械、车辆/交通、自然/环境音。这确保了语义的多样性和区分度。
  2. 冲突组合:从这六个大类中,枚举所有可能的三元组组合(例如,动物, 人类活动, 乐器)。对于每个三元组,从三个不同的类别中分别抽取文本、图像、音频样本,组合成一个冲突样本。这样可以系统性地覆盖不同的语义冲突场景。
  3. 平衡采样:在每个三元组类别组合下进行平衡采样,确保评估时不会因为某些语义组合过多而产生偏差。

通过这种方式,研究者构建了一个包含数千个冲突样本的基准数据集,为量化评估打下了坚实基础。

2.3 量化指标:模态选择率

有了冲突任务和数据集,我们需要一个简洁的指标来量化偏好。研究引入了模态选择率(Modality Selection Rate, MSR)。

其定义非常直观:对于一个给定的模态m(如视觉),MSR(m) 等于模型在所有冲突样本中,选择与该模态对应答案的样本比例。

公式化表示如下: MSR(m) = (1/N) * Σ [模型在第i个样本的回答 == 模态m对应的选项] 其中,N是总样本数。

在一个三模态冲突任务中,如果模型完全没有偏好,随机选择,那么每个模态的MSR理论上应该接近33.3%。如果某个模态的MSR显著高于33.3%,就说明模型对该模态存在偏好;反之,如果显著低于33.3%,则说明模型忽视了该模态。

这个指标简单、直接、可解释性强,非常适合用于横向比较不同模型在不同模态上的倾向性。

2.4 实操要点与潜在陷阱

在自行尝试复现或设计类似评估时,有几个细节需要特别注意:

  1. 输入标准化:对于音频模态,需要统一采样率(如16kHz)和声道(单声道),确保不同模型接收的输入格式一致。对于图像,也需要统一分辨率或预处理流程。
  2. 提示工程:提问的措辞必须谨慎。除了要保持模态中立,还应避免使用可能引导模型思考链的复杂指令。简单的、直接的选择题格式通常最有效。
  3. 选项随机化:在呈现选项时,必须随机化A、B、C的顺序,以消除模型可能存在的“位置偏好”(例如,总是倾向于选择第一个或最后一个选项)。
  4. 温度参数:在推理时,应将温度参数设置为0,以确保模型输出的确定性,使实验结果可复现。这对于闭源API调用的模型可能无法控制,但需要在报告中注明。
  5. 模型输出解析:需要编写健壮的解析逻辑,从模型的生成文本中准确提取出它选择的选项字母(A/B/C)。这可能需要处理模型各种可能的输出格式(如“答案是A”、“我认为是A”、“选项A”等)。

忽略这些细节,可能会导致评估结果包含噪声,甚至产生误导性的结论。例如,如果未随机化选项顺序,一个原本没有模态偏好的模型可能会表现出虚假的“位置偏好”,从而污染MSR的测量结果。

3. 主流OLLMs模态偏好全景图:视觉崛起与音频失语

利用上述框架,研究团队对10个具有代表性的OLLMs进行了大规模评估,包括开源模型(如Qwen2.5-Omni系列、MiniCPM-o、OmniVinci)和闭源模型(Gemini系列)。结果揭示了一些颠覆传统认知的趋势。

3.1 核心发现:从“文本主导”到“视觉偏好”的集体转向

评估结果最令人惊讶的结论是:与传统VLMs普遍存在的“文本主导”现象不同,大多数OLLMs在面临三模态冲突时,表现出显著的“视觉偏好”

图2展示了所有模型在三模态冲突下的MSR。以Gemini 3.1 Pro为例,其视觉模态的MSR高达72%,而文本模态的MSR仅为7%,音频模态为21%。这意味着,当文本说“瀑布”、图片是“大提琴”、音频是“鸟叫”时,Gemini 3.1 Pro在超过七成的情况下会选择相信图片。类似地,Gemini 3 Flash的视觉MSR达到了82%,视觉偏好极为强烈。

在评估的10个模型中,有8个模型的视觉MSR超过了50%(即高于随机选择水平),成为主导性偏好。只有Ming-Lite-Omni 1.5和Qwen3-Omni-30B-A3B-Instruct两个模型表现出了轻微的文本偏好(文本MSR为52%),但它们的视觉MSR也依然不低(分别为43%和47%)。

这个发现的意义何在? 它表明,随着模型架构从“对齐”走向“原生统一”,多模态信息整合的动力学发生了根本变化。视觉信息在统一的表示空间中可能获得了更强的表征能力或更优的优化路径,导致模型在冲突时更倾向于采信视觉证据。这对于应用开发者是一个重要提示:当你使用OLLMs处理图文、音视频混合内容时,需要意识到模型可能更“看重”画面,文本描述的影响力可能不如在传统VLM中那么大。

3.2 双模态冲突下的偏好层级

为了更细致地理解偏好,研究还测试了所有两两模态组合的冲突情况(文本+图像、图像+音频、文本+音频)。结果如图3所示,呈现出清晰的偏好层级:

  1. 文本 vs 图像:在所有模型中,图像的MSR均高于文本。这再次印证了视觉偏好在两两比较中依然成立。
  2. 图像 vs 音频:在所有模型中,图像的MSR均高于音频。视觉相对于听觉的优势非常稳固。
  3. 文本 vs 音频:在所有模型中,文本的MSR均高于音频。

一个贯穿始终的结论是:无论与谁配对,音频模态的MSR始终是最低的。 在三模态冲突中,所有模型的音频MSR均低于21%,多数在10%以下,Ming-Lite-Omni 1.5的音频MSR甚至低至1%。在双模态冲突中,音频也总是被配对模态(无论是文本还是图像)所压制。

这表明,当前一代的OLLMs普遍存在对音频信息的系统性忽视。尽管它们被设计为“全模态”,但在模态权重分配上远未达到平衡。音频信息在模型内部的表征强度或与语言模型的融合程度,可能显著弱于视觉和文本。这对于涉及音频理解的应用(如视频内容分析、会议纪要生成、智能客服)提出了警示:模型可能会忽略音频中的关键信息,导致生成内容与实际情况不符。

3.3 结果解读与模型选型启示

这些量化结果为我们在实际项目中选型和调优模型提供了重要依据:

  • 任务适配性:如果你的应用场景高度依赖视觉理解(如图像描述、视觉问答、文档图表分析),那么当前这些具有视觉偏好的OLLMs可能是更合适的选择,它们对视觉线索更敏感。反之,如果你的场景以文本逻辑推理为主,或需要高度均衡地权衡图文信息,则需要警惕模型的视觉偏好可能带来的偏差。
  • 音频相关应用需谨慎:对于任何涉及音频理解的任务,不能假设当前OLLMs能像处理图文一样可靠地处理声音。必须进行更严格的评估,或考虑采用专门的音频处理模块进行增强。
  • 模型对比:不同模型之间的偏好强度存在差异。例如,Gemini系列(尤其是Flash版本)表现出极强的视觉偏好,而Qwen3-Omni-30B等更大参数量的模型则相对更均衡一些。在选择模型时,除了看整体的性能基准,也可以将“模态偏好”作为一个特定的评估维度。
  • 提示设计的调整:了解模型的偏好后,我们可以通过提示工程进行一定程度的纠偏。例如,如果担心模型过于依赖图片而忽略文本细节,可以在指令中明确强调“请仔细阅读文本描述”或“基于所有信息进行综合判断”。

4. 偏好从何而来:层间探测揭示的内部演化机制

知道了模型“偏爱谁”还不够,我们更想知道这种偏好是“如何产生”的。是模型一接收到输入就“偏心眼”,还是在推理过程中逐渐“形成”了倾向?为了回答这个问题,研究采用了层间线性探测这一经典的可解释性技术。

4.1 探测方法:在模型的每一层安装“偏好传感器”

Transformer模型由多个层(Layer)堆叠而成,每一层都对输入表示进行逐步加工和抽象。层间探测的基本思想是:在模型的每一层输出位置,接入一个简单的分类器(如单层MLP),去预测我们感兴趣的性质(这里是模态偏好),然后观察这个分类器的预测能力随着层深的变化。

具体操作流程如下(如图4所示):

  1. 数据准备:使用前述的三模态冲突数据集,并记录模型对每个样本的最终输出(即它选择了哪个模态)。
  2. 特征提取:对于每个样本,在模型推理时,提取每一层Transformer Decoder在最后一个token位置对应的隐藏状态。这个位置通常聚合了整个输入序列的上下文信息。
  3. 标签构建:为了提供更丰富的监督信号,不使用硬标签(0/1),而是使用“软标签”。具体来说,提取模型在最终输出层,对三个选项token(分别对应文本、图像、音频)预测的概率,形成一个三维概率向量作为该样本的软标签。
  4. 训练探测头:在每一层,我们用一个简单的线性分类器(单层MLP)去学习从该层的隐藏状态映射到软标签。隐藏状态会先进行L2归一化,以消除不同层间向量幅值的影响,让探测头专注于学习方向性特征。
  5. 性能评估:在独立的测试集上评估每一层探测头的预测准确率。准确率越高,说明该层的隐藏状态中包含的“模态偏好”信息越清晰、越容易被线性模型解码。

通过绘制准确率随层数变化的曲线,我们就能直观地看到“模态偏好”这种高层语义概念,是在模型的哪一层开始出现、何时达到顶峰、何时又可能发生变化的。

4.2 演化图谱:偏好在中后层“涌现”并稳定

对所有评估模型进行层间探测后,得到了一个非常一致且有趣的模式(如图5所示):

模态偏好并非在浅层形成,而是在模型的中后层(大约40%到70%深度)突然“涌现”并逐渐稳定。

  • 浅层(前30%): 所有模型的探测准确率都接近随机水平(0.3-0.55)。这表明,浅层网络主要编码低级的、与模态相关的特征(如边缘、纹理、音素、词元),但尚未将这些特征整合成能够指示最终“决策偏好”的高层表示。
  • 中层(40%-70%): 探测准确率急剧上升。例如,Qwen2.5-Omni-7B的准确率从约0.5跃升至0.9以上。这个区间是模态偏好信息形成和强化的关键阶段。随着表示的不断抽象和融合,模型内部逐渐形成了对不同模态信息的权重分配方案。
  • 深层(80%以后): 准确率出现不同程度的下降。这与之前对纯语言模型的研究发现一致:最后的几层通常负责将中间表示压缩并映射到具体的任务输出(如下一个token的概率分布),一些在中间层清晰可辨的特定信号(如这里的模态偏好)可能会被“平滑”或“覆盖”。

4.3 四阶段分解与模型规模的影响

为了更精细地刻画这一过程,研究者将偏好演化分为四个阶段(如图6所示):

  1. 缺失期:偏好信号尚未形成,探测准确率低。
  2. 涌现期:偏好信号开始出现,准确率快速攀升。研究者定义了一个基于中位数绝对偏差的阈值来确定涌现起点。
  3. 峰值期:偏好信号最清晰、最稳定的阶段,探测准确率达到峰值的95%以上。
  4. 衰退期:准确率从峰值持续下降超过2%。

分析这四阶段在不同模型上的表现,可以发现一个与模型规模相关的趋势:

  • 更大规模的模型(如Qwen3-Omni-30B)倾向于在更浅的相对深度就进入“涌现期”。这可能意味着大模型具有更强的表征能力,能更快地形成高层语义概念。
  • 较小规模的模型(如Qwen2.5-Omni-3B)在“峰值期”后的准确率衰退更为明显(下降0.12),而大模型(如Ming-Lite-Omni 1.5)的衰退则较轻微(下降0.03)。这表明大模型可能在高层次语义表示的保持上更加鲁棒。

4.4 表征空间的可视化验证

为了更直观地理解“偏好”在隐藏状态中是如何编码的,研究者对Qwen2.5-Omni-7B模型在几个关键层的探测头权重矩阵进行了奇异值分解,并将隐藏状态投影到前两个主方向上(如图7所示)。

  • 第5层(浅层):代表文本、图像、音频的样本点完全混杂在一起,没有形成任何聚类结构。这说明浅层表示是“模态混合”的,无法区分偏好。
  • 第18层(中层):不同类别的样本开始占据部分不同的区域,但仍有大量重叠。偏好信号开始显现但尚不清晰。
  • 第24层(中后层/峰值期):三个类别形成了清晰可辨的聚类,类间重叠最小。这正是偏好信息被明确编码和分离的阶段。
  • 第28层(深层):聚类边界变得模糊,类间重叠增加。这与准确率下降的观察相符,偏好信号在输出前被部分“稀释”。

这一可视化分析从几何角度证实了偏好信号在模型内部从无到有、从模糊到清晰、再到部分模糊的动态演化过程。

实操心得:层间探测是一个强大的工具,但它依赖于一个假设:我们关心的属性(如偏好)是“线性可分”的,即能被一个简单的线性分类器从隐藏状态中解码出来。幸运的是,对于许多高层语义属性,这个假设常常成立。在进行类似分析时,软标签的构建是关键技巧,它比硬标签提供了更平滑、信息更丰富的监督信号,能帮助探测头更好地收敛。此外,选择哪个token位置的隐藏状态也很重要,对于因果解码器模型,最后一个token的位置通常是汇总全局上下文的最佳选择。

5. 从机制理解到应用:诊断跨模态幻觉

理解了模态偏好的存在及其形成机制,一个自然而然的问题是:这有什么用?一个最直接且重要的应用就是诊断跨模态幻觉。幻觉,即模型生成与输入事实不符的内容,是多模态AI落地中的核心痛点之一。而之前的研究已经暗示,模态偏好失衡是导致幻觉的一个重要原因。

5.1 建立关联:幻觉与干扰模态偏好概率的异常升高

研究假设:当模型产生幻觉时,往往是因为它过度依赖了某个“干扰模态”的信息,而忽略了本应关注的“目标模态”。例如,在POPE数据集中,任务是判断图像中是否存在某个物体(目标模态:视觉),但问题文本可能描述了不存在的物体(干扰模态:文本)。如果模型具有文本偏好,就可能被文本误导,产生“对象幻觉”。

为了验证这一假设,研究者在三个经典的跨模态幻觉基准上进行了实验:POPE(图像-文本)、AVHBench(视频-音频双向)、AHa-Bench(音频-文本)。对于每个任务,都明确定义了目标模态和干扰模态(如表1所示)。

研究者使用在上一阶段训练好的、准确率最高的那个“偏好探测头”,对测试样本进行预测。不过,这次关注的不是模型最终选择了哪个模态,而是探测头给出的干扰模态的预测概率

结果如图8所示,在所有四个基准测试上,都观察到了一个清晰且一致的模式:产生幻觉的样本,其干扰模态的预测概率分布,整体显著高于回答正确的样本。也就是说,当模型内部对干扰模态的“偏好信号”异常强烈时,它就越有可能忽视目标模态的证据,从而产生幻觉。

统计检验(曼-惠特尼U检验)的p值均极低(如表2所示,例如POPE的p值为1.08e-60),强有力地支持了“干扰模态偏好概率与幻觉发生存在显著相关”这一结论。这为使用偏好信号作为幻觉诊断指标提供了理论依据。

5.2 构建诊断器:无需下游数据的零样本检测

基于上述发现,一个实用的幻觉诊断工具就呼之欲出了。具体方法非常简单:

  1. 选择探测头:使用在偏好分析中表现最好的那个中间层(通常是峰值期)的线性探测头。
  2. 计算风险分数:对于任何一个输入样本,让模型进行推理,同时提取对应层的隐藏状态,输入到这个探测头中。探测头会输出一个三维概率分布(对应文本、视觉、音频的偏好概率)。我们只取干扰模态对应的概率值,将其作为该样本的“幻觉风险分数”。分数越高,说明模型内部越“偏爱”那个可能误导它的信息,产生幻觉的风险就越大。
  3. 设定阈值:在一个验证集上,可以根据风险分数的分布,选择一个阈值。风险分数高于该阈值的样本,就被标记为“疑似幻觉”。

这种方法最大的优势在于零样本无任务特异性。探测头是在通用的三模态冲突数据上训练得到的,它学习的是模型内在的、与具体任务无关的偏好机制。因此,它可以被直接用来诊断不同任务、不同模态组合下的幻觉,而无需任何下游任务的标注数据来重新训练。

5.3 性能验证与案例分析

研究者在三个幻觉基准上对比了该方法与两个基线方法:1) 随机猜测;2) 使用第一层(浅层)的探测头。评估指标采用了AUROC(衡量整体区分能力)、AUPRC(在类别不平衡时更可靠)和最优F1分数。

如表3所示,该方法在所有模型和所有基准上都取得了显著优于基线方法的效果。例如,在POPE数据集上,该方法在Qwen2.5-Omni-7B、MiniCPM-o-2.6和Qwen3-Omni-30B三个模型上的平均AUROC达到了0.94,而随机基线和早期探测头的AUROC都只在0.5左右徘徊。这证明幻觉检测信号确实是特定于中后层的,并且与偏好高度相关。

图9展示了几个具体的诊断案例:

  • POPE案例:当模型正确回答“图片中没有勺子”时,探测头给出的视觉(目标)偏好概率高达0.81,文本(干扰)概率仅0.17。而当模型幻觉“图片中有汽车”时,情况反转:视觉概率骤降至0.21,文本概率飙升至0.76。探测头成功捕捉到了这种内部偏好的剧烈偏移。
  • AHa-Bench案例:任务是根据音频判断是否有吉他声。在正确样本中,音频(目标)偏好概率为0.63;而在幻觉样本中(模型错误地认为狗吠发生在人声之后),音频概率降至0.28,而文本(干扰)概率高达0.70。探测头再次通过干扰模态概率的异常升高发出了预警。

注意事项与局限

  1. 探测头校准:不同模型、不同层的探测头输出的概率值范围可能不同。直接比较绝对值可能有问题。更稳健的做法是在同一模型/同一探测头下,使用相对分数(如与历史基线比较)或进行概率校准。
  2. 非偏好型幻觉:这种方法主要检测由“模态竞争与偏好失衡”导致的幻觉。对于其他原因引起的幻觉(如知识错误、逻辑谬误),可能效果有限。
  3. 计算开销:需要在前向传播时提取中间层激活,并运行一个额外的轻量级探测头,会引入少量额外的计算和内存开销。在生产环境中需要权衡精度与效率。
  4. 阈值选择:最优阈值依赖于具体的任务和数据集分布,可能需要一个小的校准集来确定。

尽管有这些局限,这种基于内部偏好信号的诊断方法为我们提供了一种全新的、低成本的幻觉检测视角。它不需要收集昂贵的幻觉标注数据,而是直接利用模型自身的“脑活动”信号,为构建更可靠的多模态AI系统增添了一个有力的工具。

诱导多模态大模型产生幻觉
本文分析了多模态大模型产生幻觉现象的原因,包括弱视觉模型的影响、语言先验的作用以及跨模态信息不对称。同时,提出了通过改进解码策略和调整视觉输入质量等方法来降低幻觉发生的概率,并通过示例代码展示了如何模拟视觉干扰操作。
评估多模态大模型幻觉
本文介绍了评估多模态大模型幻觉的方法,包括数据集选择、评估指标设计、人工评估、对比实验和错误分析。这些方法有助于全面评估模型在处理多模态数据时的准确性可靠性,并提出改进措施。
2201_75488582
多模态大模型 前沿算法实战应用【附源码+课件】
接着,课程介绍了多模态大型语言模型(MLLMs),这类模型结合了大型语言模型的自然语言处理能力对其他模态(如视觉、音频等)数据的理解生成能力。
aidedmniy
888
多模态视觉增强大模型[项目源码]
多模态视觉增强大模型是当前计算机视觉和自然语言处理领域中的一个重要研究方向。这类模型在处理多模态信息时,往往需要对不同模态进行融合,以产生具有丰富含义的输出。
落叶知秋263
1
语言大模型视觉大模型多模态大模型
多模态学习模型结合文本、图像、音频等数据,实现全面理解。语言大模型专注于自然语言处理,而视觉大模型提升计算机视觉能力。多模态大模型结合两者优势,适用于复杂环境下的认知活动,但面临效能衡量挑战。
xusongwen12345
多模态大模型综述[源码]
为了训练这样的模型,研究者采用了三阶段的策略首先进行预训练以建立基础的语言和视觉理解能力,随后进行指令微调以适应特定任务,最后执行对齐微调以确保不同模态之间的一致性。
4
多模态大模型与大模型的区别
本文详细介绍了大模型多模态大模型的概念及其区别。大模型通常参数更多、结构更复杂,适用于自然语言处理和计算机视觉等领域。而多模态大模型则能处理文本、图像、音频等多种类型的数据,适用于视觉问答和图像描述生成等任务。
大模型幻觉严重
本文详细探讨了大模型幻觉问题,包括其定义、分类以及核心解决方案。幻觉问题分为事实性、逻辑性和多模态幻觉三类。解决方案涉及数据优化、模型改进、评估修正等方面。同时,文章对比了OPERA、Chain-of-Verification和SelfCheckGPT等典型方法的优缺点,并展望了未来研究方向。
多模态离线感知大模型
本文详细介绍了多模态离线感知大模型的实现方法,包括核心概念解析、关键技术实现步骤、典型应用案例以及实现挑战解决方案。首先解释了多模态、离线感知和大模型的概念,然后分步骤阐述了数据对齐融合、模型架构设计、训练策略和离线部署方案。最后,通过案例分析了自动驾驶、工业检测和智能家居等应用场景,并讨论了实现过程中的挑战和解决方案。
m0_61235419
多模态幻觉诅咒!达摩院新作评估多模态大模型在语言、视觉和音频上的幻觉问题...
阿里巴巴达摩院和新加坡南洋理工大学研究团队提出多模态的诅咒(CMM)评价基准,系统性研究多模态大模型(LMMs)在语言、视觉和音频上的幻觉问题。分析了幻觉的两个成因,通过实验评估多种LMMs的局限性,并提出未来改进方向,为多模态学习研究和模型改进提供指导。
PaperWeekly
1062
【论文阅读】MMedPO 用临床感知多模态偏好优化调整医学视觉语言模型
医学视觉 - 语言模型存在幻觉问题,根源是模态未对齐。现有方法临床相关性不足且忽视局部病灶。MMedPO提出临床感知多模态偏好优化方法,包含多模态偏好数据构造、临床相关性量化、临床感知的偏好优化三个步骤。实验表明其在医学视觉问答和报告生成任务中性能优越,减少了事实错误。
勤奋的小笼包
1308
一篇文章读懂多模态大模型
本文介绍多模态大模型,它能处理多种数据模态,打破传统AI“偏科”局面。阐述其技术原理,包括统一表征、Transformer融合及三阶段训练。还提及落地应用,如电商平台的多模态推荐系统。同时指出当前挑战,如多模态幻觉等,并展望2024年趋势,给出不同角色行动建议。
jane_xing
1262
ConVis可视化幻觉的对比解码技术,轻松解决多模态大模型幻觉问题
ConVis提出一种无需训练的对比解码方法,利用文本到图像模型重建图像以可视化多模态大模型中的幻觉。通过比较原始重建图像的概率分布,捕获视觉对比信号并抑制幻觉生成。该方法在多个基准测试中显著优于现有技术,有效提升MLLM的可靠性。
智泊AI大模型课程
1244
多模态大模型技术突破:视觉推理模态融合新进展
2025年多模态大模型技术爆发,视觉推理模态融合成核心突破。OpenAI等模型实现“用图像思考”,国产模型也有创新。多模态能力成大模型核心竞争力,评测基准升级。其已在多行业落地,应用场景持续拓展,但面临推理透明性等挑战,未来将在多方向演进。
天枢InterGPT
2416
AI5 - 多模态大模型实战让AI同时看懂图、文、表
本文深入探讨多模态大模型的核心原理实战应用,涵盖视觉编码、文本处理与多模态融合技术,比较GPT-4V、Qwen-VL等主流模型,并提供PDF解析、表格识别图表分析的可运行代码示例。同时介绍企业落地中的安全、长文档术语挑战解决方案,指导构建具备图文表综合理解能力的智能Agent。
知远漫谈
23004
【论文阅读】大模型多模态大模型在医学中的应用综述
本文介绍了大模型多模态大模型在医学领域的应用。首先阐述其发展背景结构,接着说明医学领域的训练、微调和评估原则,还列举了在医疗诊断、报告生成等方面的应用。同时指出存在幻觉、训练部署难等挑战,并探讨了边缘部署、医疗代理等未来方向,旨在推动智能医疗系统发展。
勤奋的小笼包
3824
MedAgent-Pro通过基于推理的代理工作流实现证据驱动的多模态医学诊断
开发可靠AI系统辅助多模态医学诊断研究重点,现有多模态大语言模型(MLLMs)存在缺乏详细感知、有幻觉和推理不一致等问题。为此提出MedAgent-Pro,通过分层工作流实现可靠诊断,任务级生成诊断计划,案例级分析指标。实验表明其在2D和3D诊断任务上有优越性和有效性。
新书《ChatBI核心技术》上市了!
1775
【论文阅读】MMed-RAG多模态大模型告别“事实性幻觉
本文围绕MMed - RAG展开,指出当前医学大型视觉语言模型存在可靠性问题,尤其是事实性幻觉。介绍了微调RAG方法的局限性,提出MMed - RAG的领域感知检索、自适应上下文选择和基于RAG的偏好微调方法。实验表明,MMed - RAG显著提升了Med - LVLM的事实准确性。
勤奋的小笼包
1850
推理越多,幻觉越重?多模态推理模型的「幻觉悖论」
本文聚焦多模态推理模型,研究发现R1系列模型推理链条加长时,视觉感知能力下降,出现幻觉现象,凸显推理感知平衡挑战。研究团队引入新评估指标RH - AUC和基准集RH - Bench,还分析了模型注意力分布,揭示推理增强以牺牲视觉关注为代价,同时给出大模型AI学习阶段资料获取方式。
朝阳区靓仔_James
946
AAAI 2025 | 多模态大模型 | ConVis无训练方法抑制多模态大模型幻觉
多模态大型语言模型存在幻觉问题,影响其可靠性。为此引入 ConVis 免训练对比译码方法,利用 T2I 模型从幻觉字幕中对给定图像进行语义重建,通过比较原始和重建图像的概率分布抑制幻觉。实验表明,ConVis 能有效减少多种 MLLM 的幻觉,还分享了大模型 AI 学习资料。
小马不会过河
1242
多模态大模型技术全景13大开源框架深度解析应用实践
多模态大模型正从单一模态向跨模态融合转变,已进入产业化关键阶段。文章深度解析了NExT - GPT、LLaVA - 1.5等13大开源框架的核心架构,对比关键技术指标,介绍了在工业质检、智能座舱、医疗影像分析等典型场景的应用,还探讨了未来发展方向。
七刀
1847
Woodpecker框架:诊断与修正多模态大模型视觉幻觉的实战指南
ONE实验室
528
Woodpecker: Hallucination Correction for Multimodal Large Language Models----啄木鸟:多模态大语言模型的幻觉校正
多模态大语言模型(MLLM)存在幻觉问题,即生成文本与图像内容不一致。现有研究多采用指令调整方式,需重新训练模型。本文提出免训练框架Woodpecker,包含关键概念提取、问题表述等五个阶段,可直接纠正幻觉,提高了模型准确性,且具有良好可解释性。
Mars_prime
1810
多模态大模型幻觉检测从成因分析到实践应对
本文系统剖析多模态大模型幻觉的三大成因数据噪声偏见、自回归生成引发的惯性漂移、以及任务复杂性与多模态对齐难题;重点介绍四大检测技术流派——外部知识验证、内部信号分析、逻辑一致性检验及人类反馈评估,并结合代码生成图像描述两大典型场景给出实战方案;强调混合策略在精度效率间的必要权衡,指出未来将朝解码干预、架构革新、工具增强不确定性建模等主动防治方向演进。
骑lv上高速
354
AI大模型推理越多,幻觉越重?一文讲清多模态推理模型的「幻觉悖论」
研究发现,R1系列多模态推理模型在推理链条加长时,视觉感知能力下降,出现幻觉现象,呈现“推理增强—感知削弱”悖论。研究团队引入推理长度控制机制等进行分析,并提出评估指标RH - AUC,还揭示了模型规模、训练范式和数据类型对推理 - 感知平衡的影响。
AI大模型datian
932
多模态大模型实现原理从单模态到跨模态理解的跃迁
本文系统阐述了多模态大模型的实现原理,涵盖统一语义空间构建、跨模态融合架构、预训练任务设计及典型模型分析。重点探讨了CLIP、BLIP和GPT-4V等先进模型的技术路径,并总结了当前面临的计算复杂度、模态不平衡评估难题,展望了高效架构具身智能等未来方向。
THS_Allen
1216
【CVPR2025】多模态+视觉增强+大模型
本文聚焦多模态大语言模型,指出其存在物体幻觉问题。提出视觉增强融合(VAF)方法,可减轻幻觉、保持推理速度内容连贯性。实验表明VAF优于基线方法。此外,还分享大模型AI学习路径,涵盖初阶应用、高阶应用、模型训练和商业闭环四个阶段,并提供免费学习资料。
程序猿李巡天
1209
MMed-RAG专为医学视觉语言模型设计的多功能多模态系统
本文围绕医疗AI领域视觉 - 语言模型可靠性问题展开,介绍MMed - RAG多模态检索增强生成系统。该系统通过领域感知、自适应检索、偏好微调三个核心组件,解决事实性幻觉等问题,显著提升模型性能,还从多方面分析并给出创新发展方向。
Debroon
2746
多模态大模型幻觉检测模态对齐动态修正技术解析
本文系统解析多模态大模型幻觉的成因,涵盖数据噪声、模态鸿沟、自回归误差及注意力偏差等关键技术根源;重点介绍基于内部信号检测、跨模态一致性分析及动态校正解码(DCD)等前沿检测修正方法;强调DCD在推理阶段实时干预、无需重训、兼顾性能可靠性等优势,并探讨其在医疗诊断、自动驾驶、内容安全等AI安全关键场景的应用潜力。
TinyEcho839
444