不好意思，机器人无法仅靠视觉理解世界

1 个月前

AI资讯

24 阅读

[视觉理解机器人技术通用智能空间智能]

背景：视觉虽强，但理解世界不止于视觉

在AI与机器人技术迅猛发展的当下，视觉能力被视为感知环境的重要工具。然而，多位专家指出，视觉虽然提供了丰富的环境信息，但它并不能替代对世界的全面理解。清华大学人工智能研究院副院长朱军强调，视觉数据虽能提供大量真实世界的信息，但机器人若仅靠视频输入，难以真正掌握物理规律与因果结构。

李飞飞也曾在对话中提到，真正的通用智能（AGI）需要的不仅是语言能力或视觉识别，更需要空间智能与三维世界的生成能力。视觉是理解的一部分，但不是全部。她以三叶虫的进化为例，指出即使在生物世界，复杂的视觉系统也经历了数亿年的演化，而AI要在几年内完成类似突破，必须借助更系统性的方法和数据结构。

问题核心：视觉无法传递力觉与空间因果关系

当前机器人技术面临的最大瓶颈之一，是缺乏对力觉、触觉及空间因果的真正理解。正如来杰在星尘智能的探索中所言，传统机器人结构（如关节直驱）往往掩盖了物理交互中的关键信息，使得AI难以“感知”到动作背后的力学机制。

以开门为例，视觉能识别门的位置和形态，但真正完成动作需要理解阻尼、力度、反馈与动态变化，而这些信息无法从视觉数据中直接获取。李飞飞也指出，AI虽然在图像识别等任务上早已超越人类，但在生成式空间模型和真实世界交互方面，仍然处于早期阶段。

技术路径：多模态融合与绳驱结构的探索

星尘智能选择了一条非主流的技术路线——绳驱结构。这种设计更接近人体肌腱的发力方式，具备低摩擦、高顺应性和连续力域等优势，能够将真实的力学信息暴露给AI模型，从而使其在与环境的互动中更自然地学习。

此外，李飞飞与赵何娟的对话中也提到，多模态模型是通向通用智能的必要条件。结合视觉、语言、3D结构和物理反馈的系统，才有可能构建出真正理解世界的机器人。World Labs等机构正在推动“世界模型”的研发，尝试从图像或文字生成可持续存在、可自由导航的3D环境，这被视为从“内容生成”迈向“世界生成”的关键一步。