5,718
社区成员




作者:杨云聪,研究实习生;陈瑞本,高级研究员;斯瓦迪欣·舒克拉,首席项目经理;高建峰,杰出科学家兼副总裁
一种新的研究框架能帮助人工智能智能体探索它们无法直接探测的三维空间。这种名为MindJourney的方法解决了视觉-语言模型(VLM)的一个关键局限性,正是这些模型赋予了人工智能智能体解读和描述视觉场景的能力。
虽然视觉语言模型在识别静态图像中的物体方面表现出色,但它们难以解读二维图像背后的交互式三维世界。这种差距体现在空间问题上,例如“如果我坐在我右边的沙发上并面朝椅子,厨房会在我的右边还是左边?”——这类任务需要智能体解读自身在空间中的位置和移动。
人们通过在脑海中探索空间、想象在其中移动并结合这些脑海中的快照来确定物体的位置,从而克服这一挑战。MindJourney将同样的过程应用于人工智能智能体,让它们在回答空间问题之前先在虚拟空间中漫游。
为了执行这种类型的空间导航,MindJourney使用了一个世界模型</b0——在这种情况下,这是一个视频生成系统,它通过大量从单一移动视角拍摄的视频进行训练,这些视频展示了诸如前进、左转或右转等动作,很像一名3D摄影师。通过这些,它学会了预测新场景从不同视角看起来会是什么样子。
在推理阶段,模型能够基于智能体当前位置的可能移动,生成场景的照片级真实图像。它会生成场景的多个可能视角,而视觉语言模型则充当过滤器,选择最有可能回答用户问题的构建视角。
这些内容会被保留并在接下来的迭代中进行扩展,而前景不太好的路径则会被舍弃。如图1所示,这一过程通过只关注信息量最大的视角,避免了需要生成和评估数千种可能的移动序列的麻烦。
图1. 给定一个空间推理查询,MindJourney会使用世界模型在想象的3D空间中进行搜索,并在遇到新挑战时通过生成的观测结果来改进视觉语言模型(VLM)的空间解释能力。
为了使其在模拟空间中的搜索既有效又高效,MindJourney采用了一种空间波束搜索</b0——这是一种优先考虑最有前景路径的算法。它在固定的步骤数内运行,每一步都代表一次移动。通过平衡广度和深度,空间波束搜索使MindJourney能够收集到有力的支持证据。这一过程如图2所示。
图2. MindJourney的工作流程首先会进行一定步数的空间波束搜索,然后再回答查询。世界模型会交互式地生成新的观测结果,而视觉语言模型(VLM)会解读生成的图像,在整个过程中为搜索提供指导。
通过模拟、评估和整合的迭代过程,MindJourney能够对空间关系进行推理,其能力远超任何单张二维图像所能传达的范围,且完全无需额外训练。在空间能力训练(SAT)基准测试中,它将视觉语言模型(VLMs)的准确率在其基准性能上提升了8%。
播客系列
了解微软如何借鉴其他领域的经验,将评估与测试作为人工智能治理的支柱加以推进。
MindJourney在多个3D空间推理基准测试中表现出色,甚至先进的视觉语言模型(VLM)在与其想象循环结合后也有所提升。这表明,世界模型从原始图像中学习到的空间模式,与视觉语言模型的符号处理能力相结合,能为智能体打造更全面的空间能力。它们共同使智能体能够推断可见框架之外的事物,并更准确地理解物理世界。
这也表明,预训练的视觉语言模型(VLMs)和可训练的世界模型可以在3D环境中协同工作,而无需对两者进行重新训练——这为能够在现实世界环境中进行理解和行动的通用智能体指明了方向。这为自主机器人技术、智能家居技术以及视障人士辅助工具等领域的潜在应用开辟了道路。
通过将仅能描述静态图像的系统转变为能够持续评估下一步观察位置的主动智能体,MindJourney将计算机视觉与规划能力结合起来。由于探索完全在模型的潜在空间(即其对场景的内部表征)中进行,机器人将能够在确定下一步行动之前测试多种视角,这有可能减少磨损、能耗和碰撞风险。
展望未来,我们计划扩展该框架,以使用不仅能预测新视角,还能预测场景如何随时间变化的世界模型。我们设想MindJourney与视觉语言模型协同工作,这些模型会解读这些预测并利用它们来规划下一步行动。这一增强功能可以使智能体更准确地理解空间关系和物理动态,帮助它们在不断变化的环境中有效运作。