ArtifactWorld:基于视频扩散模型修复3D高斯溅射稀疏视图伪影
1. 项目概述与核心挑战
如果你最近在折腾3D高斯溅射(3DGS)来做场景重建,大概率会遇到一个让人头疼的问题:当输入的相机视图太少时,重建出来的模型简直没法看。不是画面里飘着各种莫名其妙的“鬼影”(Floaters),就是物体表面布满了裂纹(Cracks),或者颜色出现诡异的断层(Color Outliers)。这些统称为“伪影”(Artifacts)的玩意儿,严重破坏了渲染的视觉保真度,让3DGS这个理论上很美的技术,在实际的工业级应用——比如虚拟看房、文化遗产数字化或者影视特效预览——中变得举步维艰。
问题的根源在于3DGS的优化过程严重依赖多视角的一致性约束。当输入视图稀疏时,整个优化问题就变成了一个“欠定系统”,有无数种解都能让2D的重投影误差降到很低,但其中很多解在3D空间里是物理上不合理的。传统的正则化方法,比如引入单目深度先验或者施加几何平滑约束,有点像给一个自由散漫的优化过程“套上缰绳”。它们能缓解一部分问题,但对于那些因严重信息缺失而产生的高频细节丢失或复杂伪影,往往力不从心,最终结果容易变得过度平滑,丢失了真实感。
于是,一个自然的思路出现了:能不能请一个“外援”?这个外援需要见过足够多的“世面”,知道一个正常的、完整的3D场景应该长什么样。近年来爆火的生成式模型,尤其是视频扩散模型,就成了最理想的候选。它们在海量视频数据上训练,内化了丰富的物体结构、材质纹理和时空运动规律,具备强大的“想象力”来补全缺失的信息。ArtifactWorld 这个框架,就是这条技术路径上一个非常扎实的工程实践。它没有停留在简单调用现有生成模型,而是系统地解决了三个核心痛点:数据从哪里来、模型怎么精准控制、修复如何保持时空一致。
简单来说,ArtifactWorld做了一件很“工程化”的事情:它首先像个严谨的医生,把3DGS在稀疏视图下可能出现的各种“病症”(伪影)分门别类,建立了九大类的“病理学”图谱。然后,它没有靠人工一点点去收集病例,而是构建了一个自动化的“数据飞轮”,生成了超过10万对“带病”和“健康”的视频片段作为训练资料。最后,它设计了一个巧妙的“同构双模型”治疗仪:一个模型负责诊断(生成伪影热图),另一个模型根据诊断结果进行精准手术(修复),整个过程都在一个统一的视频扩散模型骨架里完成,确保了修复结果在时间上连贯、在空间上准确。
2. 伪影系统性分类与数据引擎构建
在动手修复之前,你得先知道你要修的是什么。3DGS的伪影成因复杂,属性高度耦合,想从根源上完全解耦几乎不可能。ArtifactWorld团队很聪明地转向了“现象学”分类法,即不从复杂的数学原理去追溯,而是从渲染结果在四个基本表示域中呈现出的视觉现象入手。这套分类不仅让问题变得可描述、可度量,更是后续构建大规模数据集的基石。
2.1 九类伪影的视觉特征与成因浅析
这九类伪影可以归入四个域,理解它们有助于你在实际调试中快速定位问题:
-
几何结构域
- 漂浮物:这是最典型的伪影。表现为在自由空间中漂浮着高不透明度的原始高斯椭球体。成因是缺乏严格的3D几何约束时,优化过程为了拟合多视图间微小的光度不一致,过度“创造”出了本不存在的几何体。
- 膨胀:高斯椭球体变得异常巨大、形状模糊,像一团膨胀的棉花。这通常发生在纹理稀疏的区域或深度模糊严重时。由于缺乏足够的点来进行“致密化”,现有的高斯体被迫过度扩张其尺度,以覆盖更大的图像区域来最小化光度损失。
- 针状物:尖锐的、钉子状的突起,从特定视角看尤其明显。当相机视图非常稀疏时,高斯体会沿着某几条特定的光线方向变得高度各向异性(极度拉长),以“强行”拟合这些视角下的像素颜色,从其他角度看就露馅了。
- 裂纹:物体表面或结构上出现的拓扑空洞。根本原因在于3DGS缺乏显式的拓扑保持约束。当空间中重叠的高斯球体在优化过程中发生位置漂移时,原本连续的表面前就可能裂开一道缝。
-
渲染与采样域
- 锯齿:高频的摩尔纹图案。当用优化了特写视图的模型去渲染远景时,缩小后的2D高斯投影在像素网格上被严重欠采样,又缺乏低通预滤波,就会产生这种子像素级别的走样。
- 模糊:纹理被过度平滑。当致密化过程受限或多视图不一致导致无法生成足够多的高频细节基元时,优化器会倾向于扩大现有高斯体的尺度,这本质上使其退化为空间低通滤波器,丢失了细节。
-
动态与时空域
- 闪烁:相机运动时,渲染结果出现不连续的跳动或闪烁。常见原因是空间中相交的高斯球体,在相机移动导致深度排序发生变化时,发生了不规则的渲染顺序交换。
- 重影:半透明、拖尾或复制的伪影。当场景中存在动态物体(违反了3DGS的静态场景假设)时,优化器为了最小化跨视图的光度误差,会降低这些区域高斯体的不透明度,强行将瞬态物体“融合”进静态背景,产生重影。
-
光度辐射域
- 颜色异常:在新视角下出现 erratic 的颜色偏移或噪点。这是由于高阶球谐函数在拟合有限的训练光线时发生了过拟合,且没有被有效正则化。不完美的多视图曝光补偿或存储量化误差会进一步放大这个问题。
实操心得:在实际项目中