首页

登录

谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

1 个月前

AI资讯

14 阅读

具身智能机器人][谷歌波士顿动力

背景：谷歌与波士顿动力的再合作

谷歌在九年前将波士顿动力出售，今年CES展会上双方宣布重新合作。
ER 1.6是合作重启后的首个正式成果。
该模型定位为机器人的“高层大脑”，专注于理解环境、制定计划和调用工具，而不是直接控制机械动作。

ER 1.6的核心升级

模型的主要改进在于增强机器人对环境的“理解”能力，特别是空间推理和视觉识别。
工业设施中许多仪器需要持续监控，例如温度计、压力表和化学视镜。
以前Spot只能拍摄照片，但无法识别和解释仪表上的数值，现在通过ER 1.6，它能够真正“看懂”这些数据。

谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

视觉识别技术的突破

ER 1.6采用Agentic Vision技术，使仪表识别成功率从ER 1.5的23%提升至93%。
识别过程分为三步：
1. 放大：清楚捕捉小刻度细节。
2. Pointing定位：识别指针与刻度位置，结合代码计算比例。
3. 世界知识调用：将识别到的数字转化为有意义的读数。

Pointing技术的演进与表现

Pointing是ER系列模型从初代开始训练的基础能力，用于空间感知与物体识别。
ER 1.5在识别工具图像时表现不佳，例如错误计数锤子数量、漏掉剪刀，甚至识别出图像中并不存在的手推车。
ER 1.6显著改进了这些缺陷，能准确识别图像中的2把锤子、1把剪刀、1支画笔和6把钳子。
更重要的是，它不会对图像中不存在的物体做出误判。

多视角推理与安全判断能力

ER 1.6增强了多视角推理能力，整合来自多个摄像头（如头顶和手腕）的信息，形成连贯的环境判断。
系统能够应对真实场景中的复杂性，如遮挡、光线变化和模糊指令。
对于物理安全限制（如不搬运超过20公斤的物体、不处理液体），ER 1.6通过Pointing输出做出更准确决策。
在安全隐患识别测试中，ER系列模型在文字和视频场景中分别比Gemini 3.0 Flash高出6%和10%的准确率。

作者团队与技术愿景

ER 1.6的两位署名作者是Laura Graesser和Peng Xu。
Laura Graesser：牛津本科、NYU硕士，自2018年加入Google，现为DeepMind机器人研究员，曾合著强化学习教材。
Peng Xu：专注于机器人学习与大模型结合，参与过多项知名项目，包括机器人打乒乓球、RT-1、RT-2、Cap（Code as policy）及Gemini Robotics系列。
谷歌高层表示，他们不会涉足硬件制造，而是希望成为“机器人领域的Android”，为各类机器人提供通用的智能大脑。

影响与未来展望

这一技术突破将显著提升工业机器人在复杂环境中的自主操作能力。
Spot现在能够执行更多需要视觉判断与逻辑推理的任务，如巡检、故障识别与报告。
ER 1.6为机器人厂商提供了通用认知能力的平台，可能推动整个行业向标准化、智能化迈进。
随着更多厂商接入谷歌的机器人操作系统，未来可能会出现更广泛的智能机器人生态。