不好意思,机器人无法仅靠视觉理解世界
背景:视觉虽强,但理解世界不止于视觉
在AI与机器人技术迅猛发展的当下,视觉能力被视为感知环境的重要工具。然而,多位专家指出,视觉虽然提供了丰富的环境信息,但它并不能替代对世界的全面理解。清华大学人工智能研究院副院长朱军强调,视觉数据虽能提供大量真实世界的信息,但机器人若仅靠视频输入,难以真正掌握物理规律与因果结构。
李飞飞也曾在对话中提到,真正的通用智能(AGI)需要的不仅是语言能力或视觉识别,更需要空间智能与三维世界的生成能力。视觉是理解的一部分,但不是全部。她以三叶虫的进化为例,指出即使在生物世界,复杂的视觉系统也经历了数亿年的演化,而AI要在几年内完成类似突破,必须借助更系统性的方法和数据结构。
问题核心:视觉无法传递力觉与空间因果关系
当前机器人技术面临的最大瓶颈之一,是缺乏对力觉、触觉及空间因果的真正理解。正如来杰在星尘智能的探索中所言,传统机器人结构(如关节直驱)往往掩盖了物理交互中的关键信息,使得AI难以“感知”到动作背后的力学机制。
以开门为例,视觉能识别门的位置和形态,但真正完成动作需要理解阻尼、力度、反馈与动态变化,而这些信息无法从视觉数据中直接获取。李飞飞也指出,AI虽然在图像识别等任务上早已超越人类,但在生成式空间模型和真实世界交互方面,仍然处于早期阶段。
技术路径:多模态融合与绳驱结构的探索
星尘智能选择了一条非主流的技术路线——绳驱结构。这种设计更接近人体肌腱的发力方式,具备低摩擦、高顺应性和连续力域等优势,能够将真实的力学信息暴露给AI模型,从而使其在与环境的互动中更自然地学习。
此外,李飞飞与赵何娟的对话中也提到,多模态模型是通向通用智能的必要条件。结合视觉、语言、3D结构和物理反馈的系统,才有可能构建出真正理解世界的机器人。World Labs等机构正在推动“世界模型”的研发,尝试从图像或文字生成可持续存在、可自由导航的3D环境,这被视为从“内容生成”迈向“世界生成”的关键一步。
数据与遥操作:构建真实交互数据闭环
李飞飞在讨论中多次强调,数据是AI发展的核心资源。与视觉数据不同,交互数据包含了动作、力反馈、触觉等关键信息,是训练机器人理解物理因果的关键来源。
来杰也提到,遥操作是构建数据闭环的关键环节。它不仅能提供高性价比、高质量的真实操作数据,还是早期商业化落地的重要桥梁。与仿真数据或视频学习相比,遥操作能生成更具真实性和交互性的数据,帮助AI模型更快积累经验、提升泛化能力。
商业与伦理:AI机器人应成为人类的延伸而非替代
在商业层面,星尘智能坚持“AI+机器人”的融合模式,既做硬件,也做模型,形成闭环。他们认为,单独做模型或硬件都难以建立壁垒,必须在本体设计、数据采集与AI模型之间实现协同。
李飞飞则从更宏观的视角出发,强调AI机器人应服务于人类社会的普惠目标,而非成为权力工具。她提出,AI教育应更重视人的主体性与创造力,而非单纯地取代人类劳动。AI作为工具,其价值在于放大人类的潜力,而非抹杀人性。
她也提到,在AI时代,教育应突破传统“工科/文科”的界限,利用AI赋能每个人的独特认知与能力。同时,社会也需要加强对AI伦理的思考,确保技术发展始终以人为本。
展望:未来需更耐心、更系统地推进“世界模型”
李飞飞认为,AGI是一扇多锁的门,需要不同的“钥匙”来打开,而空间智能是其中一把关键钥匙。她并不认同用“几亿年进化”与“几年技术迭代”做简单类比,强调工程与生物进化路径的不同,但也承认其带来的启示。
赵何娟与李飞飞的对话中提到,AI的发展节奏可能比预期更快,但真正突破仍需耐心。李飞飞认为未来一两年可能是空间智能、世界模型爆发的节点,但前提是解决数据瓶颈和模型泛化问题。
来杰则从产品路径出发,认为AI机器人短期内仍需依赖遥操作与特定场景落地,而真正实现“数十亿人拥有AI机器人助理”的愿景,仍需在设计、模型、数据与伦理等多个层面系统推进。
小结:AI机器人需从“温柔探索”到“系统认知”
机器人要真正理解世界,不能只靠视觉。它需要:
- 多模态融合(视觉、语言、3D、力觉等)
- 新型本体结构(如绳驱,以暴露真实物理交互)
- 遥操作与真实数据闭环(以支持AI训练与商业化)
- 教育与伦理的同步发展(以确保技术向善)
正如李飞飞所说,AI不是要替代人类,而是要成为人类的延伸。而机器人要成为真正的智能体,必须从“温柔地触碰世界”开始,逐步构建出属于AI的认知体系。