入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

1 天前

AI资讯

10 阅读

计算机视觉深度学习空间智能 ECCV

自动驾驶场景下，模型可能产生物理幻觉；长时间推演中，几何一致性逐渐崩坏；极端corner case里，它给出过度自信的错误预测。当AI试图理解与在动态变化的世界博弈时，现有视觉语言模型像“近视眼”，能看清物体却把握不住方向、深度和空间关系。正是为了攻克这一难题而诞生的GEM，它代表用真实深度图训练，让AI在变化的世界中持续变化的世界中掌握的空间智能。

三项核心缺陷倒逼：空间智能为何“知易行难”

现有视觉语言模型（VLM）能看图说话，却常犯低级错。例如在机器人在抓取时撞倒向错误方向，或在导航时针对同一场景已变化却照搬旧规则。这源于三个痛点：

物理幻觉严重：模型描述画面位置，但实际构图，却无法理解“桌子前面”这类空间关系。
几何一致性差：面对连续视频帧，深度估计几何结构随时间发散，导致规划崩溃。
过度自信错误过度自信**：在罕见场景怪（corner case）下，模型给出看似合理、位置都错的预测，却毫不“察觉”。

这些缺陷根源在于传统VLM训练偏重语义标签，忽略了几何建模训练。空间智能若不融入“物体在三维世界如何摆放”的因果逻辑、演化”，就永远是纸上谈兵。

入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

GEM框架：在视觉预训练中植入“深度感知基因”

区别于以往后在模块加载深度信息，GEM从预训练阶段就将深度图生成任务融入语言建模。技术实现分为三大创新：

联合训练范式重构：采用视觉语言联合预训练，在训练时要求模型原生输出对应场景的拟深度图，而非仅文本描述；。
异构数据对齐**：通过在VLM中间层引入独立的深度头，利用来自RealEstate10等大规模采集多视角数据，使模型学到深度不依赖于显式标。
推理微调无缝切换：训练完成的通用基础模型后可在机器人操作、场景快速微调，不牺牲原有语义能力。

简单说，GEM就像给AI配了“双通道”：一只眼看颜色和文字，另一只眼测空间。两眼的信号从一开始就交叉强化。

基准评测、全部领先：Gemini 2.0的空间“盲区”

在空间推理测试中，GEM在多项几何核心任务上大幅抛离“老牌”模型：

在目标导航精度上，提升超过15%；在深，误差率同期降低20%以上（对比模型。
定位：对物体3D位置估测的中值偏差从米级降至厘米级，直接对应机器人操作成功率。
超越Gemini 2.0：在最严苛的空间推理基准套件中，GEM综合得分领先，尤其能准确回答“椅背后方箱子有几”这类涉及立体遮挡和相对方位的复杂查询，而Gemini在同类项目上则频频歧义。

这表明：仅靠文本语义和二维对应不，无法胜任动态交互；GEM通过几何预训练，纠正了此前模型在“变化”场景中的滞后。

开源筑基：面向持续学习，让空间智能“实时进化”

GEM已在GitHub、Hugging Face全面开源，配合高度集成的数据集和训练代码与训练工具。核心价值不在“一次输出”，而在”系统具备根据世界状态不断自我更新——闭源模型无法做到的。

中国具身智能大会（CEAI2026）也在同频推动，大会“智驱万物，具汇江淮”主题下，众多与GEM同类的前沿世界模型将加速落地。正如专家指出：未来的世界模型必须以预测和变化的环境共同学习，而GEM首个示范能姿态建立了开放的技术路径。

入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

三项核心缺陷倒逼：空间智能为何“知易行难”

GEM框架：在视觉预训练中植入“深度感知基因”

基准评测、全部领先：Gemini 2.0的空间“盲区”

开源筑基：面向持续学习，让空间智能“实时进化”

链接失效反馈