DepthVAR:视觉自回归模型动态深度推理加速框架
1. 项目概述与核心思路
视觉自回归模型(VAR)在生成高分辨率图像时,通常会对序列中的每个token(可以理解为图像块或特征位置)施加相同的计算深度,即让所有token都经过模型的所有Transformer层。这带来了一个直观的效率问题:图像的不同区域,其信息复杂度和生成难度是不同的。例如,生成一片纯净天空所需的计算,显然比生成一张人脸的精细五官要少得多。然而,现有的主流加速方法,如基于频率图的硬剪枝(Hard-Pruning),采取了一种“非黑即白”的策略——要么完整计算一个token,要么直接丢弃它。这种二元化处理虽然能减少计算量,但往往在剪枝区域引入难以修复的质量损失,甚至使用更精确的频率估计也无法从根本上改善。
我们提出的DepthVAR框架,其核心思路正是对这一范式的根本性转变:从“剪掉整个token”转向“为每个token自适应地分配计算深度”。我们观察到,预训练的VAR模型内部存在显著的“深度冗余”,即许多token在通过部分层后,其表征就已趋于稳定,后续层的计算贡献微乎其微。DepthVAR的目标就是智能地识别这些token,并为其分配更少的计算层数,从而在整体上大幅减少浮点运算(FLOPs)和推理延迟,同时最大限度地保留生成图像的质量。
简单来说,DepthVAR就像一位经验丰富的画师。在绘制一幅画时,他不会对画布的每个角落都投入相同的精力和笔触。对于背景或大色块区域,他会用大笔刷快速铺色;而对于需要精细刻画的人物面部或细节纹理,他则会换用小笔刷,进行多层、细致的渲染。DepthVAR所做的,就是在模型的推理过程中,动态地、自动化地实现这种“笔触分配”。
2. 深度冗余的发现与硬剪枝的局限
在深入DepthVAR的设计之前,我们必须先理解其出发点的两个关键实证观察,这也是我们工作的基石。
2.1 硬剪枝策略的固有缺陷
现有加速方法(如FastVAR, SparseVAR)依赖于一个假设:高频区域(如边缘、纹理)对图像质量至关重要,而低频区域(如平滑色块)可以安全地剪枝。它们通过近似频率图来识别“不重要”的token并将其丢弃。
然而,我们的实验揭示了这一范式的根本性局限。首先,频率图近似的准确性(例如,用Sobel滤波器得到的真实高频图与模型预测的频率图之间的相关性)与最终生成图像的视觉质量(如SSIM指标)之间,仅存在微弱的正相关(Pearson相关系数 r=0.138)。这意味着,即使你拥有一个完美的频率估计器,也无法保证剪枝后的图像质量会提升。
更关键的是,我们进行了一项“先知”(Oracle)实验:直接使用真实图像计算出的完美频率掩码来进行硬剪枝。结果如图2b所示,即使在这种理想情况下,图像质量仍然出现了显著下降。这强有力地证明,问题不在于频率估计是否准确,而在于“完全丢弃一个token”这一行为本身就会破坏模型生成过程的连续性,导致信息不可逆的丢失,尤其是在多尺度生成中,这种丢失会随着尺度放大而累积。
2.2 VAR模型中可被利用的深度冗余
既然完全丢弃token行不通,我们转而探索更精细的调控方式。我们对预训练的VAR模型(如Infinity)进行了层间表征相似性分析。如图3a所示,对于不同尺度的token,其连续层输出的余弦相似度会在某个深度后趋于饱和(曲线变平)。这表明,很多token在通过前若干层后,其语义或特征已经“定型”,后续层只是在做微小的调整,甚至可能是冗余计算。
我们进一步进行了“全局早期退出”实验:强制所有token在某个中间层就停止计算,并将该层的输出直接用于后续生成。如图3b所示,在GenEval和HPSv2.1等基准测试上,图像生成质量并非随着层数增加而单调提升,而是在达到某个中间层(如第26层,总层数为32)时达到峰值,之后甚至略有下降。这明确证实了VAR模型存在“过参数化”的深度冗余,为我们动态削减每toke