李飞飞万字长文刷屏:网红文生视频只是“画皮”,真正的万亿级风口在这|附中英全文
为什么AI能说话却不会倒水?
过去几年,大模型快速演化让AI能写文案、画图、编代码、演讲、陪聊,仿佛进入了智能的黄金时代。但当我们问“这些AI能走进现实世界吗?”答案依然是“还远着呢”。它能写出十种喝水的方式,却倒不好一杯水;能生成极美的卧室图,却连“开门进房间”的物理结构都不理解;能模拟医生问诊,却不会扶老人过马路。李飞飞在万字长文中反复强调,这种“聪明”停留在语言层面——理解句子、预测词语、生成符号,本质上是“屏幕里的智能”。现在的AI看起来能言善道,但实际上像“黑暗中的文豪”,对世界毫无经验,只会描述世界,不会生活在世界里。而要让AI真正走进物理世界、具备“行动力”,空间智能就是必须跨过的下一个台阶。
人类智能的起点:不是语言,而是空间
李飞飞提醒我们,人类智能的起点恰恰与语言无关。一个婴儿在学会说话之前,就已经会抓玩具、摸轮廓、扔东西、盯着水滴滚落发呆。表面上是好奇心,实际上是空间智能在生长——通过观察与试错,婴儿在“身体力行”地理解世界规则。日常生活中,停车靠边要判断轮胎与马路牙子的距离,接住飞来的钥匙需要估算速度与轨迹。更关键的是,人类文明的重大跃迁往往靠“空间感”触发灵感:古希腊埃拉托色尼通过观察太阳影子角度测出地球圆周;18世纪哈格里夫斯将多个纺锤并列排布,创造纺织效率提升八倍的“珍妮纺织机”;沃森与克里克在摆弄铁丝模型中摸索出DNA双螺旋结构——这些伟大发现不是“算”出来的,是“看”出来、“摆”出来的,靠空间理解而非语言逻辑建构。李飞飞直接点明:空间智能是行动的基础,不是表达的产物。语言帮助我们沟通,但空间理解才帮助我们生存、创造和进步。

大模型的双脚陷在“语言泥潭”里
尽管我们已经拥有令人惊叹的AI语言能力、图像生成能力和代码编写能力,但在“理解世界”这件事上,它依然像个纸上谈兵的孩子。李飞飞指出,今天的大模型学到的是“语言的皮肤”,不是“世界的骨架”。当前AI的主流学习方式基于“符号”——文字、标签、像素,它们学习词与词的关系、图与图的相似度,而不是物体与空间之间的真实互动关系。它们并不知道“水会流下来”“影子在光照下会变形”“玻璃是透明的”,只是根据训练数据生成“看起来像的东西”。于是AI生成的图像常出现奇怪的物理错误:水从杯子外流出来、影子方向反了、手有六根指头。这不是算力的问题,而是“没有物理常识”的问题。再看机器人,表面上能抓取、能行走、能“装配零件”,但大多建立在“高度定制”的环境里——专用轨道、特定参数、脚本控制。换个场景就“手忙脚乱”。AI在屏幕里看起来很聪明,一旦进入现实世界,就会暴露“空间盲点”:不会判断距离、不会识别障碍、不会预测结果。李飞飞说,这是因为它们没有“住在世界里”,只是“读取了关于世界的描述”。
“世界模型”让AI走出屏幕,进入现实
如果说语言智能让AI学会“说话”,那么世界模型就是让AI开始“做事”的关键。李飞飞提出,空间智能的核心载体不是多模态大模型,而是具备世界建模能力的生成模型——一种全新的AI范式,不再只生成文本、图片或视频,而是生成一个“可以持续存在、可以交互变化”的世界。她将世界模型的核心能力拆解为三大要素:感知、推理、行动。传统大模型训练的是“下一句文本”,世界模型训练的则是“下一帧世界状态”。这意味着AI不再是复述者、描述者,而是变成了“参与者”“构建者”甚至“行动者”。想象一下:你告诉AI“请帮我布置一个适合8人聚会的客厅”,它不再生成图纸,而是直接生成一个完整、可交互的3D场景;你说“把水壶拿给我”,它理解你与水壶的空间关系,预测路径、避障、抓取、递交——这一切依赖的不是语言,而是具身感知、空间推理与行为预测的整体智能。李飞飞团队开发的Marble系统,正是一个能接收多模态输入(语言、图像、动作指令)并生成一致3D交互场景的世界模型系统。Marble不再只是“生成画面”,而是能“维持一个世界”,让用户在里面走动、探索、建构。
空间智能将重塑四大行业
当AI拥有空间智能,它就不再是一个“内容生成器”,而变成“现实世界的协作伙伴”。李飞飞认为,这种能力的落地将带来四个最重要的行业变革方向:#### 1)创意产业:从“画画”到“构建世界”
过去的AI创作停留在二维屏幕里,空间智能让创作从“表现”走向“构建”。李飞飞举例:过去我们用图纸“想象房子”,未来我们是在AI生成的房子里走一圈再决定改哪里。#### 2)机器人:从工具走向协作伙伴
未来的机器人不再是机械臂、仓储搬运、流水线操作员,而是具备空间理解力的“行动者”与“助手”。比如家庭助手:它能理解你“刚喝完水”的动作,就去厨房拿水壶补满杯子,而不是等你下指令。这种“看懂人+理解空间+预测行动”的协作能力,正是空间智能带来的跃迁。AI不是拿来“替你做事”的,而是“跟你一起做事”的。#### 3)科学与医疗:多维模拟加速突破
药物开发需要理解分子三维结合机制,材料设计需要评估结构变化对性能的影响,医疗影像需要医生在脑海中重建器官与病变位置。空间智能AI可以模拟无数可能的空间组合,加速推演,缩短试错周期。甚至在手术前,AI基于患者CT/MRI影像生成全息模型,让医生“预演手术”,提升成功率。这是“从理解语言到理解物体”的跨越。#### 4)教育:抽象知识沉浸式体验
过去我们靠想象力“理解原子结构”“看懂地球公转”“学习电磁场方向”,但很多学生对这些“看不到、摸不着”的知识停留在记忆层面。拥有空间智能的AI可以构建沉浸式教学场景:让你走进细胞内部、绕着DNA结构飞一圈、在古战场上穿梭、在数学几何中旋转。李飞飞总结:空间智能不是炫技,而是真正的“新型生产力”,重构的不只是工具,而是重塑“人如何与世界互动”的方式。
李飞飞的核心主张:增强人,而不是替代人
当语言模型让写PPT、写邮件、写脚本变得可以被AI代劳,“AI是不是要抢工作”的焦虑蔓延。但李飞飞认为,“语言智能”的局限在于只能处理符号,无法理解动机、情境与人本身。而空间智能带来的AI走向了另一个方向:从“替代”走向“协作”。她举例:AI不会取代教师,而是让教师拥有一个能随时生成3D教学场景的助教;AI不会取代建筑师,而是让建筑师能瞬间将图纸变成可漫步的虚拟建筑;AI不会取代外科医生,而是让医生能在全息模型上反复预演最复杂的手术。这是本质性的理念差异:语言AI是“你说我做”,空间AI是“你做我帮”。后者强调配合、补位与增强——正如她所说:“AI的价值,不是取代人类的劳动,而是让我们做到原本做不到的事。”这种“人机协作”的价值观,是李飞飞20多年AI研究者身份的总结,也是她在创业中亲自实践的底层信念。她不谈AGI神话,也不渲染AI末日,只关心一件事:AI要如何为人类赋能,为人的尊严、能力与选择留出更大的空间。