李飞飞万字长文刷屏：网红文生视频只是“画皮”，真正的万亿级风口在这｜附中英全文

1 个月前

AI资讯

45 阅读

AI 空间智能李飞飞物理世界

为什么AI能说话却不会倒水？

过去几年，大模型快速演化让AI能写文案、画图、编代码、演讲、陪聊，仿佛进入了智能的黄金时代。但当我们问“这些AI能走进现实世界吗？”答案依然是“还远着呢”。它能写出十种喝水的方式，却倒不好一杯水；能生成极美的卧室图，却连“开门进房间”的物理结构都不理解；能模拟医生问诊，却不会扶老人过马路。李飞飞在万字长文中反复强调，这种“聪明”停留在语言层面——理解句子、预测词语、生成符号，本质上是“屏幕里的智能”。现在的AI看起来能言善道，但实际上像“黑暗中的文豪”，对世界毫无经验，只会描述世界，不会生活在世界里。而要让AI真正走进物理世界、具备“行动力”，空间智能就是必须跨过的下一个台阶。

人类智能的起点：不是语言，而是空间

李飞飞提醒我们，人类智能的起点恰恰与语言无关。一个婴儿在学会说话之前，就已经会抓玩具、摸轮廓、扔东西、盯着水滴滚落发呆。表面上是好奇心，实际上是空间智能在生长——通过观察与试错，婴儿在“身体力行”地理解世界规则。日常生活中，停车靠边要判断轮胎与马路牙子的距离，接住飞来的钥匙需要估算速度与轨迹。更关键的是，人类文明的重大跃迁往往靠“空间感”触发灵感：古希腊埃拉托色尼通过观察太阳影子角度测出地球圆周；18世纪哈格里夫斯将多个纺锤并列排布，创造纺织效率提升八倍的“珍妮纺织机”；沃森与克里克在摆弄铁丝模型中摸索出DNA双螺旋结构——这些伟大发现不是“算”出来的，是“看”出来、“摆”出来的，靠空间理解而非语言逻辑建构。李飞飞直接点明：空间智能是行动的基础，不是表达的产物。语言帮助我们沟通，但空间理解才帮助我们生存、创造和进步。

李飞飞万字长文刷屏：网红文生视频只是“画皮”，真正的万亿级风口在这｜附中英全文

大模型的双脚陷在“语言泥潭”里

尽管我们已经拥有令人惊叹的AI语言能力、图像生成能力和代码编写能力，但在“理解世界”这件事上，它依然像个纸上谈兵的孩子。李飞飞指出，今天的大模型学到的是“语言的皮肤”，不是“世界的骨架”。当前AI的主流学习方式基于“符号”——文字、标签、像素，它们学习词与词的关系、图与图的相似度，而不是物体与空间之间的真实互动关系。它们并不知道“水会流下来”“影子在光照下会变形”“玻璃是透明的”，只是根据训练数据生成“看起来像的东西”。于是AI生成的图像常出现奇怪的物理错误：水从杯子外流出来、影子方向反了、手有六根指头。这不是算力的问题，而是“没有物理常识”的问题。再看机器人，表面上能抓取、能行走、能“装配零件”，但大多建立在“高度定制”的环境里——专用轨道、特定参数、脚本控制。换个场景就“手忙脚乱”。AI在屏幕里看起来很聪明，一旦进入现实世界，就会暴露“空间盲点”：不会判断距离、不会识别障碍、不会预测结果。李飞飞说，这是因为它们没有“住在世界里”，只是“读取了关于世界的描述”。

“世界模型”让AI走出屏幕，进入现实

如果说语言智能让AI学会“说话”，那么世界模型就是让AI开始“做事”的关键。李飞飞提出，空间智能的核心载体不是多模态大模型，而是具备世界建模能力的生成模型——一种全新的AI范式，不再只生成文本、图片或视频，而是生成一个“可以持续存在、可以交互变化”的世界。她将世界模型的核心能力拆解为三大要素：感知、推理、行动。传统大模型训练的是“下一句文本”，世界模型训练的则是“下一帧世界状态”。这意味着AI不再是复述者、描述者，而是变成了“参与者”“构建者”甚至“行动者”。想象一下：你告诉AI“请帮我布置一个适合8人聚会的客厅”，它不再生成图纸，而是直接生成一个完整、可交互的3D场景；你说“把水壶拿给我”，它理解你与水壶的空间关系，预测路径、避障、抓取、递交——这一切依赖的不是语言，而是具身感知、空间推理与行为预测的整体智能。李飞飞团队开发的Marble系统，正是一个能接收多模态输入（语言、图像、动作指令）并生成一致3D交互场景的世界模型系统。Marble不再只是“生成画面”，而是能“维持一个世界”，让用户在里面走动、探索、建构。

空间智能将重塑四大行业

当AI拥有空间智能，它就不再是一个“内容生成器”，而变成“现实世界的协作伙伴”。李飞飞认为，这种能力的落地将带来四个最重要的行业变革方向：#### 1）创意产业：从“画画”到“构建世界”
过去的AI创作停留在二维屏幕里，空间智能让创作从“表现”走向“构建”。李飞飞举例：过去我们用图纸“想象房子”，未来我们是在AI生成的房子里走一圈再决定改哪里。#### 2）机器人：从工具走向协作伙伴
未来的机器人不再是机械臂、仓储搬运、流水线操作员，而是具备空间理解力的“行动者”与“助手”。比如家庭助手：它能理解你“刚喝完水”的动作，就去厨房拿水壶补满杯子，而不是等你下指令。这种“看懂人+理解空间+预测行动”的协作能力，正是空间智能带来的跃迁。AI不是拿来“替你做事”的，而是“跟你一起做事”的。#### 3）科学与医疗：多维模拟加速突破
药物开发需要理解分子三维结合机制，材料设计需要评估结构变化对性能的影响，医疗影像需要医生在脑海中重建器官与病变位置。空间智能AI可以模拟无数可能的空间组合，加速推演，缩短试错周期。甚至在手术前，AI基于患者CT/MRI影像生成全息模型，让医生“预演手术”，提升成功率。这是“从理解语言到理解物体”的跨越。#### 4）教育：抽象知识沉浸式体验
过去我们靠想象力“理解原子结构”“看懂地球公转”“学习电磁场方向”，但很多学生对这些“看不到、摸不着”的知识停留在记忆层面。拥有空间智能的AI可以构建沉浸式教学场景：让你走进细胞内部、绕着DNA结构飞一圈、在古战场上穿梭、在数学几何中旋转。李飞飞总结：空间智能不是炫技，而是真正的“新型生产力”，重构的不只是工具，而是重塑“人如何与世界互动”的方式。

李飞飞的核心主张：增强人，而不是替代人

当语言模型让写PPT、写邮件、写脚本变得可以被AI代劳，“AI是不是要抢工作”的焦虑蔓延。但李飞飞认为，“语言智能”的局限在于只能处理符号，无法理解动机、情境与人本身。而空间智能带来的AI走向了另一个方向：从“替代”走向“协作”。她举例：AI不会取代教师，而是让教师拥有一个能随时生成3D教学场景的助教；AI不会取代建筑师，而是让建筑师能瞬间将图纸变成可漫步的虚拟建筑；AI不会取代外科医生，而是让医生能在全息模型上反复预演最复杂的手术。这是本质性的理念差异：语言AI是“你说我做”，空间AI是“你做我帮”。后者强调配合、补位与增强——正如她所说：“AI的价值，不是取代人类的劳动，而是让我们做到原本做不到的事。”这种“人机协作”的价值观，是李飞飞20多年AI研究者身份的总结，也是她在创业中亲自实践的底层信念。她不谈AGI神话，也不渲染AI末日，只关心一件事：AI要如何为人类赋能，为人的尊严、能力与选择留出更大的空间。

李飞飞万字长文刷屏：网红文生视频只是“画皮”，真正的万亿级风口在这｜附中英全文

为什么AI能说话却不会倒水？

人类智能的起点：不是语言，而是空间

大模型的双脚陷在“语言泥潭”里

“世界模型”让AI走出屏幕，进入现实

空间智能将重塑四大行业

李飞飞的核心主张：增强人，而不是替代人

链接失效反馈