谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

背景:谷歌与波士顿动力的再合作

  • 谷歌在九年前将波士顿动力出售,今年CES展会上双方宣布重新合作。
  • ER 1.6是合作重启后的首个正式成果。
  • 该模型定位为机器人的“高层大脑”,专注于理解环境、制定计划和调用工具,而不是直接控制机械动作。

ER 1.6的核心升级

  • 模型的主要改进在于增强机器人对环境的“理解”能力,特别是空间推理和视觉识别。
  • 工业设施中许多仪器需要持续监控,例如温度计、压力表和化学视镜。
  • 以前Spot只能拍摄照片,但无法识别和解释仪表上的数值,现在通过ER 1.6,它能够真正“看懂”这些数据。

谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

视觉识别技术的突破

  • ER 1.6采用Agentic Vision技术,使仪表识别成功率从ER 1.5的23%提升至93%。
  • 识别过程分为三步:
    1. 放大:清楚捕捉小刻度细节。
    2. Pointing定位:识别指针与刻度位置,结合代码计算比例。
    3. 世界知识调用:将识别到的数字转化为有意义的读数。

Pointing技术的演进与表现

  • Pointing是ER系列模型从初代开始训练的基础能力,用于空间感知与物体识别。
  • ER 1.5在识别工具图像时表现不佳,例如错误计数锤子数量、漏掉剪刀,甚至识别出图像中并不存在的手推车。
  • ER 1.6显著改进了这些缺陷,能准确识别图像中的2把锤子、1把剪刀、1支画笔和6把钳子。
  • 更重要的是,它不会对图像中不存在的物体做出误判。

多视角推理与安全判断能力

  • ER 1.6增强了多视角推理能力,整合来自多个摄像头(如头顶和手腕)的信息,形成连贯的环境判断。
  • 系统能够应对真实场景中的复杂性,如遮挡、光线变化和模糊指令。
  • 对于物理安全限制(如不搬运超过20公斤的物体、不处理液体),ER 1.6通过Pointing输出做出更准确决策。
  • 在安全隐患识别测试中,ER系列模型在文字和视频场景中分别比Gemini 3.0 Flash高出6%和10%的准确率。

作者团队与技术愿景

  • ER 1.6的两位署名作者是Laura Graesser和Peng Xu。
  • Laura Graesser:牛津本科、NYU硕士,自2018年加入Google,现为DeepMind机器人研究员,曾合著强化学习教材。
  • Peng Xu:专注于机器人学习与大模型结合,参与过多项知名项目,包括机器人打乒乓球、RT-1、RT-2、Cap(Code as policy)及Gemini Robotics系列。
  • 谷歌高层表示,他们不会涉足硬件制造,而是希望成为“机器人领域的Android”,为各类机器人提供通用的智能大脑。

影响与未来展望

  • 这一技术突破将显著提升工业机器人在复杂环境中的自主操作能力。
  • Spot现在能够执行更多需要视觉判断与逻辑推理的任务,如巡检、故障识别与报告。
  • ER 1.6为机器人厂商提供了通用认知能力的平台,可能推动整个行业向标准化、智能化迈进。
  • 随着更多厂商接入谷歌的机器人操作系统,未来可能会出现更广泛的智能机器人生态。