高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成
一张卫星图速生3D城市,消费级显卡跑出千倍效率
6月8日,阿里巴巴旗下高德正式推出ABot-Earth0.5——全球首个完全基于3D数据训练、工程可用的3D原生城市世界模型。用户只需输入一张卫星图或一段文字,即可在一张消费级单卡上快速生成城市级3D场景,生成效率相比传统模式提升约1000倍。这一突破彻底改变了“先采集、后拟合”的繁琐建模流程,让3D城市生成进入“一句话、一张图”的AI原生时代。

跨越2D蒸馏:用3D数据直接“教会”模型理解三维空间
传统3D城市建模通常走“从2D图像蒸馏3D结构”的弯路——先拍摄大量二维照片,再通过算法反推三维几何,不仅步骤冗长,且容易因2D视角缺失导致空间失真。ABot-Earth0.5则直接以高德自有的海量3DGS(3D高斯泼溅)数据训练模型,让模型建立起对三维空间的原生理解,端到端一次性生成3DGS格式的城市场景。这条原生3D路径在理论上优势显著,但落地挑战极大:原始3DGS数据具有无序性,且公里级连续场景的生成难度极高。为此,高德团队在数据表征、解码架构与推理策略上进行了系统性创新。
压缩-生成框架与滑窗推理:破解原生3D训练与广域拼接难题
- 直面3DGS点云的压缩-生成框架:ABot-Earth0.5首创直接面向3DGS点云的压缩-生成框架,能将包含数百万基元的高质量真实世界3DGS场景编码到紧凑的隐空间,再从中生成全新场景。该框架有效解决了3DGS的无序性问题,让模型能够直接“阅读”大体量的3D数据,并依托高德自有三维数据训练,确保生成内容与真实环境的几何和空间一致性。
- 滑窗推理(Sliding-Window Inference)机制:为实现公里级别的广域连续生成,团队提出高效的滑窗推理机制。通过在重叠区域进行智能融合,将分块生成的场景一致拼接,避免了传统分块建模的裂缝感,保障了长距离场景的空间连续性。
跨域自适应与LOD解码器:从卫星图到远近景深一次到位
模型在生成阶段引入跨域自适应模块,有效弥合卫星影像与三维训练数据在分辨率上的域差异(Domain Gap)。同时内置的多层次细节解码器(LOD)使生成结果自带远近景深,无需任何后处理即可适配不同视距的流畅漫游。这意味着用户从上帝视角俯瞰到低空贴近飞行,都能获得无缝的视觉体验。
自动化管线直连游戏引擎,内测已全面开放
在交付环节,ABot-Earth0.5构建了完备的自动化管线,输出的是原生可渲染的3D城市场景。用户可直接将生成内容导入Unity、Unreal Engine等主流引擎,添加交互逻辑后即可用于实际生产,大幅降低3D场景的资产制作门槛。目前,ABot-Earth0.5已正式开放内测,用户可访问官方网站(abot-earth.amap.com)提交申请,亲身体验空间智能技术对传统3D生产方式的重构。技术报告也已同步公开,详细阐述了模型架构与创新点。