vivo、荣耀接连入场,戳破了具身智能的AI叙事
手机厂商集体“长出身体”,AI叙事从云端落向地面
曾经,AI行业的热闹集中在算力堆叠、大模型参数竞赛和API调用次数上。但当vivo与荣耀接连宣布将战略重心转向机器人“大脑”与“眼睛”的研发时,一个更残酷的真相浮出水面:光有语言模型和API十万个,造不出一个能在真实世界拧螺丝、递水杯的机器人。vivo为此甚至暂停了对大模型研发的资金投入,转而接入DeepSeek,把资源砸向具身智能的核心——视觉感知与灵巧操作。这一转向,直接戳破了过去几年“AI万能叙事”的泡沫:没有物理载体,大模型不过是虚拟世界的智库;有了机器人的手脚,AI才真正进入“爆单”时代。
vivo起底“蓝心智能”,PhoneGPT暴露机器人大脑野心
vivo在最新发布的蓝心智能战略中,将大模型与手机操作系统深度融合,但真正引爆行业关注的是“PhoneGPT”——一个能识别屏幕、自主对话、代为订餐厅和咖啡的智能体。表面看这是手机自动化,实则暴露了vivo对“机器人大脑”的技术预演:端侧大模型(蓝心3B)实现越级推理,多模态能力支持图像、语音、触控的联合理解,而本地知识图谱则让设备学会记忆和预判用户意图。按照vivo的说法,他们要做“最懂中国的机器人大脑”,而这份理解力正通过蓝河操作系统2.0与自研VCAP推理计算平台,下沉到机器人、智能眼镜等物理设备中。
荣耀与天津黑马引爆“爆单潮”,纯人类视频预训练VLA成新武器
紧随vivo之后,荣耀的进场让具身智能赛道彻底白热化。行业消息显示,一家天津机器人黑马凭借“纯人类视频预训练VLA灵巧操作”技术,在短期内实现规模化落地,订单爆满。所谓VLA(视觉-语言-动作),是指直接用人类操作视频训练机器人模仿并泛化抓握、插拔、组装等精微动作,绕过了传统手动编程和仿真环境构建。这一路径被验证可行后,手机巨头纷纷意识到:自己多年积累的影像算法、端侧芯片功耗控制、用户行为数据,恰好是训练VLA的天然土壤。因此,vivo将“蓝图影像”技术栈跨界复用至机器人的“眼睛”,荣耀则迅速整合供应链,两家几乎同时卡位。
从参数竞赛到“接地气”,手机厂做具身智能有天然壁垒
与纯AI公司不同,手机厂商做具身智能拥有三重先天优势:其一,端侧芯片的能效比优化经验可直接移植到机器人主板,避免机器人变成“电老虎”;其二,百万级用户场景数据(如手势交互、环境感知)能低成本转化为训练素材;其三,供应链管理能力让它们能快速将机器人成本压低至消费级。vivo的蓝心3B端侧模型在保持80字/s生成速度的同时,功耗仅450mA、内存占用1.4GB,这种极致的工程压缩正是机器人大脑规模化落地的关键。相比之下,依赖云端API的纯大模型公司,在面对“实时抓取一杯水”的刚性需求时,连10毫秒的延迟都无法容忍。vivo与荣耀的入场,等于宣告:具身智能不再需要虚浮的AI故事,它需要的是能拧螺丝、能识别螺丝是十字还是六角的真实手脚。