OneVL:双模态压缩与预填充推理,实现自动驾驶高效可解释决策

链式思维推理潜在表征自动驾驶
于 2026-06-02 03:02:59 修改
·本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述:OneVL如何重塑自动驾驶的“思考”方式

在自动驾驶领域,让模型“想清楚再行动”正变得越来越重要。传统的端到端模型就像一个黑盒,输入传感器数据,直接输出控制指令或轨迹。这种方式虽然快,但一旦出错,我们很难理解它为什么做出这样的决策,这在安全至上的驾驶场景中是致命的。链式思维推理的出现,为这个问题提供了一个优雅的解决方案:它要求模型像人类一样,先在心里“过一遍”场景——识别关键物体、判断其意图、评估风险、形成驾驶策略,最后再输出轨迹。这种显式的推理过程,极大地提升了模型决策的可解释性和鲁棒性。

然而,理想很丰满,现实却很骨感。当你要求一个拥有数十亿参数的大模型,为每一帧驾驶场景生成数百个字的推理文本时,延迟就成了无法忽视的噩梦。在高速行驶中,几十毫秒的延迟就可能导致事故。这就是当前自动驾驶研究中一个尖锐的矛盾:我们既需要模型进行深度、可解释的推理,又要求它具备毫秒级的实时响应能力。

OneVL框架的诞生,正是为了破解这个“效率与可解释性不可兼得”的困局。它的核心思路非常巧妙:为什么不把那份冗长的“内心独白”压缩成一个精炼的“思维概要”呢? 这个“概要”就是潜在表征。OneVL不再让模型逐字生成推理链,而是训练它生成一组紧凑的、富含语义的潜在向量。这些向量本身对人类不可读,但它们编码了模型进行视觉理解、语言推理和轨迹规划所需的全部关键信息。更重要的是,OneVL通过创新的“双模态监督”机制,确保这些压缩后的向量不仅“记得住”答案,更“懂得”答案背后的物理因果和语义逻辑。

2. 核心设计思路:从“说出来”到“想明白”的范式转变

要理解OneVL的价值,我们需要先拆解传统链式思维推理的瓶颈,以及现有潜在链式思维方法的不足,这样才能看清OneVL的创新点究竟解决了哪些根本性问题。

2.1 显式链式思维的效率之殇

传统的显式链式思维推理,其流程可以概括为:感知输入 -> 生成推理文本 -> 基于文本生成答案。以自动驾驶为例,模型可能会输出:“前方绿灯,但右侧车道有施工锥桶,左前方车辆减速,因此我选择保持车道并轻微减速,准备在通过路口后变道。” 然后才输出具体的轨迹点。

这个过程存在两个核心问题:

  1. 序列依赖导致的延迟:推理文本的生成是严格自回归的。模型必须先生成第一个词,然后基于第一个词生成第二个词,以此类推。这意味着推理链的长度直接决定了延迟。一条包含50个token的推理链,其延迟就是生成50个token的时间,这远高于直接生成答案(可能只有10个轨迹点token)的延迟。
  2. 信息冗余与表征浅层化:仔细分析这些推理文本,你会发现大量内容是重复或模板化的,例如“图像显示…”、“我认为…”、“因此…”。模型可能只是在模仿语言模式,而非进行真正的因果推理。这违背了链式思维的初衷——通过压缩理解来获得泛化能力。冗长的、充满套话的推理链,其信息密度可能很低。

2.2 现有潜在链式思维方法的局限

为了提升效率,研究者们开始探索隐式或潜在的链式思维。基本思路是:用几个连续的潜在向量(Latent Token)来代替一整段显式文本。这些向量在模型的隐藏状态空间中承载推理信息,推理过程在“内部”完成,最终只输出答案。这听起来很完美,但应用于自动驾驶这类视觉-语言-动作任务时,却暴露了严重缺陷:

  • 模态缺失:如COCONUT、CODI等方法,最初是为纯语言任务(如数学推理)设计的。它们的潜在向量只压缩了语言信息。但在驾驶中,决策严重依赖于对三维物理世界的时空动态理解——车辆的相对速度、距离的微妙变化、道路曲率的演变。这些信息很难用“左前方有一辆卡车”这样的抽象语言完全、精确地编码。纯语言的潜在表征丢失了丰富的视觉几何和物理因果信息。
  • 推理过程不透明:虽然潜在向量替代了文本,但它们的生成往往仍是自回归的(一个接一个地生成潜在向量),并未从根本上解决序列延迟问题。只是把“生成50个文本token”变成了“生成5个潜在向量”,速度提升有限。
  • 监督信号单一:训练这些潜在向量时,通常只使用最终答案(如轨迹)作为监督信号,或者通过蒸馏从显式推理链中学习。这可能导致潜在向量只学会了“抄近路”关联输入和输出,而没有真正内化世界运行的因果模型,泛化能力受限。

2.3 OneVL的破局之道:双模态压缩与预填充推理

OneVL的解决方案是系统性的,它从监督目标和推理机制两个层面进行了重构。

1. 双模态辅助解码器:为“思维”装上视觉和语言两把尺子 这是OneVL最核心的创新。它认为,一个优秀的、被压缩的“思维概要”,必须能同时通过视觉和语言两方面的“还原测试”。

  • 语言辅助解码器:这是一个小型网络,负责将压缩后的“语言潜在向量”解码回人类可读的推理文本。它的训练目标是尽可能准确地重建人工标注或高质量生成的链式思维文本。这确保了潜在向量没有丢掉高层的语义意图和逻辑链条。
  • 视觉辅助解码器:这是一个更具突破性的设计。它负责将“视觉潜在向量”解码成对未来场景的视觉预测——具体来说,是预测未来0.5秒和1.0秒时,驾驶摄像头会看到什么样的画面(编码为视觉token)。这相当于为模型嵌入了一个“世界模型”的辅助任务。 要准确预测未来帧,潜在向量就必须编码关于物体运动、场景几何演变的真实物理动态,而不仅仅是抽象标签。

通过这两个解码器提供的联合监督信号,OneVL的潜在向量被强制学习到一种既懂“语义”又懂“物理” 的混合表征。它知道“施工锥桶”这个词(语言),也理解锥桶在图像中的位置、体积以及它对我未来路径的空间约束(视觉物理)。这种双模态的压缩,远比单一模态的压缩更接近真实的因果结构。

2. 预填充推理:将“思考”过程提前完成 OneVL的第二个关键创新是改变了推理时的计算范式。在训练阶段,模型学会了生成特定的潜在向量序列来代表推理。在推理时,OneVL做了一个大胆的假设:既然这些潜在向量的具体token ID在训练中已经见过了,为什么不直接把它们作为已知的“提示词”喂给模型呢?

具体操作如下:

  1. 在构造输入提示时,我们直接将训练好的视觉潜在向量和语言潜在向量的token序列,像系统指令一样,预填充到用户查询的前面。
  2. 模型在并行处理整个输入序列时,这些预填充的潜在向量就已经激活了相应的“推理通路”。
  3. 模型接下来只需要自回归地生成最终的轨迹答案即可。

这个过程带来的效率提升是革命性的。推理延迟从“生成推理链 + 生成答案”降低到了“仅生成答案”。因为预填充的token在Transformer架构中是并行处理的,增加几十个token带来的开销微乎其微。这就实现了“既有深度思考,又有闪电速度”的目标。

3. 模型架构与实现细节拆解

理解了核心思想,我们深入到OneVL的具体实现中。它的架构可以看作在一个强大的视觉-语言模型主干上,精巧地嫁接了一套“压缩-解压”系统。

3.1 主干网络与基础设定

OneVL选择Qwen3-VL-4B-Instruct作为其主干模型。这是一个40亿参数的视觉-语言模型,能很好地处理交错的图像和文本输入。它包含标准的三个部分:视觉编码器(ViT)、视觉投影器(MLP对齐器)和大语言模型(LLM)。在OneVL的训练中,这三个部分都是可训练的,这对于让模型学习如何将视觉特征、文本指令与新的潜在token空间对齐至关重要。

3.2 潜在Token的设计:为两种“思维”预留座位

OneVL没有使用模糊的单一潜在空间,而是明确区分了两种潜在token,这体现了其设计上的清晰性:

  • 语言潜在Token:长度为2的token序列(例如用20个基础token来表征)。它们被放置在模型响应中轨迹答案之前,原本显式推理链出现的位置。它们负责编码高层的、语义层面的推理信息。
  • 视觉潜在Token:长度为4的token序列(例如用35个基础token来表征)。它们被放置在语言潜在token之前。它们负责编码空间的、时间的、关于未来场景状态的视觉推理信息。

注意:这里的一个实践细节是,并没有向词汇表中添加全新的特殊token(如<|latent-vis|>),而是复用已有的token来组合表示这些潜在位置。这是因为添加新token可能会破坏预训练模型的嵌入空间,导致性能下降。这种“旧词新用”的策略更稳定。

3.3 双辅助解码器的实现

语言辅助解码器 是一个轻量级的自回归模型(例如一个几层的小型Transformer解码器)。它的输入是主干模型在处理到语言潜在token位置时产生的隐藏状态 H_l,以及当前帧的视觉编码特征 V。这两个特征通过一个MLP投影到同一维度后拼接起来,作为解码器的初始状态。解码器的任务就是基于这个状态,逐词生成之前作为监督信号的链式思维文本。其损失函数是标准的交叉熵损失。

视觉辅助解码器 的实现更为复杂,因为它涉及将离散的视觉token作为预测目标。

  1. 视觉分词器:OneVL采用了IBQ视觉分词器,它将图像压缩成一个离散的token序列(词表大小可达13万)。这类似于把图像“翻译”成一种视觉语言。未来帧(0.5秒和1.0秒)的图像会被提前转换成这样的token序列,作为训练目标。
  2. 解码器输入:与语言解码器类似,其输入是视觉潜在token的隐藏状态 H_v 和当前帧视觉特征 V 的拼接。
  3. 训练目标:解码器的任务是自回归地预测未来帧的视觉token序列。这迫使 H_v 必须编码足够精确的时空动态信息,才能让解码器“画”出合理的未来画面。

3.4 三阶段训练流程:分步对齐,稳扎稳打

直接端到端训练这样一个复杂系统是困难的。OneVL采用了一个非常合理且有效的三阶段训练策略,这在实际复现中至关重要。

阶段0:主干模型预热

  • 目标:让主干模型先学会在包含潜在token的提示下,完成基本的轨迹预测任务。
  • 操作:冻结两个辅助解码器,只训练主干模型。数据格式是:[图像, 文本指令, 潜在token占位符, 轨迹答案]。模型通过标准的下一token预测损失,学习在潜在token的位置生成有意义的隐藏状态,并最终输出正确轨迹。
  • 意义:这相当于先让模型“坐上驾驶座”,熟悉基本的操作(预测轨迹),并初步形成在特定位置(潜在token处)“思考”的习惯。

阶段1:辅助解码器预热

  • 目标:在主干模型产生的潜在表征稳定的基础上,单独训练两个解码器,学会“解读”这些思维。
  • 操作冻结主干模型,只训练语言和视觉辅助解码器。语言解码器学习将 H_l 还原成文本推理;视觉解码器学习将 H_v 还原成未来帧。
  • 意义:确保解码器能够准确理解主干模型初步形成的“思维语言”。如果主干模型还在剧烈变化,解码器的学习目标就会飘忽不定。

阶段2:联合端到端微调

  • 目标:让整个系统协同优化,使潜在表征在压缩的同时,最大程度地服务于轨迹预测和双模态重建。
  • 操作:解冻所有参数,使用综合损失函数 L = L_c + λ_l * L_l + λ_v * L_v 进行训练。其中 L_c 是轨迹预测损失,L_lL_v 分别是语言和视觉解码损失。论文中设置 λ_l=1.0, λ_v=0.1,因为视觉预测任务更难,权重较低可以防止其主导训练。
  • 意义:这是升华阶段。来自解码器的梯度会反向传播,塑造主干模型的潜在表征,使其变得信息密度更高、更具因果性。好的潜在表征能帮助生成更准确的轨迹,而更准确的轨迹训练信号又能进一步优化潜在表征,形成良性循环。

4. 实验验证与结果分析

任何框架的价值都需要通过严格的实验来证明。OneVL在四个具有挑战性的自动驾驶基准测试上进行了全面评估,结果有力地支撑了其设计理念。

4.1 数据集与评估指标

为了证明其泛化能力,OneVL选择了四个侧重点不同的数据集:

  1. NAVSIM:基于大规模真实驾驶日志(nuPlan)的仿真规划基准,评估综合驾驶性能,使用PDM分数(综合考虑安全性、舒适性和进度)。
  2. ROADWork:专注于道路施工区域导航,包含临时标志、非标准车道、动态障碍物等复杂场景,使用轨迹点误差(ADE, FDE)评估。
  3. Impromptu:一个从多个开源数据集提炼的大规模VLA基准,专注于四类非结构化 corner-case(意外情况),评估轨迹预测误差。
  4. APR1:引入了因果链标注的数据集,侧重于决策的可解释性。

4.2 核心性能对比:效率与精度的双重胜利

实验将OneVL与以下几类基线模型进行对比:

  • AR Answer:仅输出答案的基线,代表速度上限(最快)和性能下限(通常最不准)。
  • AR CoT+Answer:显式生成推理链再输出答案,代表性能上限(通常最准)和速度下限(最慢)。
  • 其他潜在CoT方法:如COCONUT、CODI等,代表同类型的效率优化方案

关键结论如下表所示:

方法 范式 推理延迟 (相对值) 轨迹精度 (NAVSIM PDM) 可解释性
AR Answer 直接输出 1.0x (基准) 较低
AR CoT+Answer 显式推理 ~1.5x - 2.3x 最高 强(文本)
COCONUT/CODI 潜在推理 ~1.1x - 1.2x 低于显式CoT 弱(潜在向量)
OneVL (Ours) 潜在推理 + 预填充 ~1.0x - 1.05x 超越显式CoT 强(可通过解码器获得文本/视觉解释)

结果解读:

  1. 效率达到极致:OneVL的推理延迟与直接输出答案的模型几乎持平,比显式CoT快1.5到2.3倍。这完全得益于其预填充机制,将“思考”成本降到了近乎为零。
  2. 精度实现超越:这是最令人振奋的发现。OneVL不仅在大多数指标上匹配了显式CoT,甚至在部分数据集上实现了超越。这验证了论文的核心假设:更强的压缩(双模态监督)迫使模型学习更本质、更泛化的因果表征,反而带来了更强的性能。 压缩不是妥协,而是提升。
  3. 可解释性得以保留:虽然推理时不需要解码器,但必要时我们可以运行语言和视觉解码器,将潜在向量“翻译”回文本推理和未来帧预览。这为事后分析、调试和“人机回环”提供了宝贵工具。

4.3 消融实验:每个组件都不可或缺

为了验证每个设计选择的有效性,论文进行了一系列消融实验:

  • 移除视觉辅助解码器:模型退化为类似COCONUT的纯语言潜在CoT。性能出现显著下降,尤其是在ROADWork这种依赖空间理解的场景。这证明了视觉世界模型监督对于学习物理动态至关重要
  • 移除语言辅助解码器:性能也会下降,但幅度相对较小。这说明语言监督主要强化语义逻辑,而视觉监督提供了更基础的物理约束。
  • 取消三阶段训练,直接端到端:模型难以收敛,最终性能远低于分阶段训练。这证明了渐进式对齐策略对于稳定训练复杂多任务系统是有效的。
  • 不使用预填充,仍自回归生成潜在向量:推理速度会下降至约1.2倍基准延迟,虽然仍快于显式CoT,但无法达到OneVL的极致效率。这凸显了预填充机制在工程部署中的关键价值。

5. 实操思考与未来展望

基于对OneVL的深入剖析,我们可以从中提炼出一些对研究和实践都具有指导意义的观点。

5.1 OneVL成功的关键启示

  1. 多模态监督是强泛化的关键:在追求模型压缩和效率提升时,不能只盯着最终的输出任务损失。引入来自不同模态、不同抽象层次的辅助监督任务(如未来预测、语言描述),相当于给模型的学习过程增加了多个“锚点”,能引导模型学习到更接近世界真实运行规律的、解耦的、因果的表征。这对于在陌生、长尾场景中的泛化至关重要。
  2. “思考”与“执行”的解耦设计:OneVL将耗时的“深度思考”(推理)过程压缩并提前(预填充),与轻量的“快速执行”(生成答案)过程分离。这种异步化的设计思想,在需要低延迟响应的实时系统中具有普适性。我们可以想象在其他领域,如机器人操控、实时策略游戏AI中,也可以采用类似范式。
  3. 训练策略的稳定性优先:三阶段训练看起来步骤繁琐,但它确保了系统各个部分(主干、解码器)能逐步、稳定地对齐。在复杂模型训练中,这种“先分开热身,再一起合练”的策略,往往比粗暴的端到端训练更可靠,更容易复现。

5.2 潜在挑战与改进方向

尽管OneVL表现出色,但在实际部署中仍需考虑以下几点:

  • 标注成本:训练OneVL需要高质量的链式思维文本标注和未来帧图像。虽然未来帧可以自动获取,但高质量的推理文本标注成本高昂。未来研究可以探索更高效的半监督或自监督方法来生成这些监督信号。
  • 解码器复杂度:虽然推理时丢弃了,但训练阶段需要维护两个额外的解码器,增加了训练时的显存和计算开销。如何设计更轻量、更高效的辅助解码器是一个优化方向。
  • 潜在向量的可操控性:目前潜在向量是模型自发学习的。未来是否可以设计干预机制,让人工智能安全员能够通过修改或注入特定的潜在向量,来安全地影响模型的决策?这为可操控的、可信的AI提供了一个有趣的研究接口。

5.3 对从业者的建议

如果你正在自动驾驶或具身智能领域从事VLA模型的研究或工程化,OneVL的框架提供了清晰的借鉴路径:

  1. 从模仿开始:可以尝试在现有VLA模型基础上,参照OneVL的设计,添加视觉潜在token和未来帧预测任务。即使一开始只用简单的卷积解码器来预测未来帧的底层特征,也可能带来性能增益。
  2. 重视训练流程:不要忽视分阶段训练的重要性。先让主干模型在主要任务上收敛,再引入辅助任务进行微调,是调试多任务学习系统的有效方法论。
  3. 性能与解释的平衡:在追求SOTA指标的同时,永远将可解释性作为核心设计考量之一。OneVL证明了效率和解释性可以兼得,这应该成为下一代实时决策模型的标配思路。

OneVL不仅仅是一个更快的链式思维模型,它代表了一种新的范式:将深度推理压缩为可计算的、富含因果信息的表征,并通过多模态监督确保这种压缩是“有损”但“高保真”的。 它巧妙地在神经网络的“黑箱”中,点亮了一盏既能照亮内部逻辑、又不影响其高速运行的灯。随着这类技术的发展,我们离构建既强大又透明、既智能又可靠的人工智能系统,无疑又近了一步。

Xiaomi OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation具备视觉-语言解释能力的一步式
OneVL是小米提出的面向自动驾驶的一步式隐式推理与规划框架,通过双模态辅助解码器(语言解码器重建CoT文本、视觉解码器预测未来帧)实现世界模型监督下的紧凑隐式Token压缩;采用三阶段训练流程对齐隐式表示,并在推理预填充隐式Token以达成仅回答预测相当的低延迟。在NAVSIM等四大基准上首次超越显式思维链方法,兼顾高精度、低延迟多模态可解释性。
Together_CZ
387
小米技术新突破!Xiaomi OneVL 自动驾驶模型正式发布并全面开源
小米技术
181
OneVL一步式潜空间推理|小米开源智驾VLA框架、超低时延推理落地、助力车端实时决策与车企二次开发
随着高阶智能驾驶快速普及,端到端VLA(视觉-语言-动作)模型已成为车载智能决策的核心底座,依托多模态感知能力,实现路况理解、意图解析、轨迹规划、动作输出全链路智能化。但当前主流VLA算法始终陷入高精度高延迟、低延迟低精度的二元对立困境,无法满足车规级实时落地需求。目前行业两类主流方案均存在明显短板:1.显式CoT思维链方案通过自回归逐Token生成可视化驾驶推理文本,场景因果理解、长尾路况适配、轨迹规划精度优势显著,是学术领域主流高精度方案。