300 万对样本、2.71T 数据,蚂蚁灵波开源大规模空间感知数据集
开源背景与核心发布
蚂蚁集团旗下具身智能公司蚂蚁灵波科技宣布开源其高精度空间感知模型 LingBot-Depth 及相关大规模数据集。这一举措旨在解决机器人在复杂环境中“看清楚”三维世界的难题,特别是针对透明和高反光物体的感知问题,为机器人、自动驾驶等智能终端提供更精准、更可靠的三维视觉能力。此次发布是继2025外滩大会后,蚂蚁灵波在具身智能技术基座方向的又一重要成果。

300万对样本与2.71T数据集详情
此次开源的核心资产是其构建的超大规模空间感知数据集,具体细节如下:
- 数据规模:基于真实场景采集,提炼出 300万对(3M)高价值的 RGB-Depth 配对数据。
- 数据构成:包含 200万对真实世界深度数据(2M Real-world & 200k Paired)以及 100万对仿真数据(1M Simulation)。
- 数据体量:数据集总大小达到了 2.71TB。
- 数据价值:该数据集覆盖了大量包含透明、反光物体的复杂场景,能够有效提升模型在极端环境下的泛化能力,解决了传统深度相机在该类场景下数据丢失或噪声严重的行业共性难题。
技术突破与掩码深度建模 (MDM)
为了充分利用海量数据并解决深度感知难点,LingBot-Depth 采用了创新的 掩码深度建模(Masked Depth Modeling, MDM) 技术。
- 工作原理:当深度数据出现缺失或异常(常见于玻璃、镜面等材质)时,该技术能融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进行推断与补全。
- 效果:输出的深度图完整、致密,且边缘清晰。实测中,在不更换奥比中光 Gemini 330 系列硬件传感器的前提下,通过软件算法显著提升了对高难度光学场景的处理效果。
性能表现与行业对比
LingBot-Depth 在多项权威基准测试中展现了代际级的优势:
- 基准测试:在 NYUv2、ETH3D 等测试中,该模型在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平(SOTA)。
- 精度提升:相比业界主流的 PromptDA 与 PriorDA,其在室内场景的相对误差(REL)降低超过 70%;在挑战性的稀疏 SfM 任务中,RMSE 误差降低约 47%。
- 硬件对比:在面对透明玻璃、高反光镜面等场景时,其效果显著优于业内领先的 ZED Stereo Depth 深度相机。
- 认证与应用:该模型已通过奥比中光深度视觉实验室的专业认证,并计划合作推出新一代深度相机。
生态应用与未来影响
开源不仅是模型的发布,更是对具身智能生态的深度赋能:
- VLA 模型验证:LingBot-Depth 的深度信息已融入 LingBot-VLA 具身大模型中,并在 GM-100 基准测试中证明,引入深度信息后,跨本体泛化平均成功率从 15.7% 提升至 17.3%。
- 训练效率:蚂蚁灵波构建的后训练工具链,在 8 卡 GPU 下实现了每秒 261 个样本的吞吐量,训练效率达到主流框架的 1.5~2.8 倍,大幅降低了数据与算力成本。
- 推动科研:通过开放 2.71T 的核心数据资产,将推动社区更快攻克复杂场景的空间感知难题,加速“一脑多机”时代的到来。