从一张午餐桌到无限宇宙,李飞飞押注AI的下一个维度

端盘子女孩的AI觉醒:从一张午餐桌开始

李飞飞的传奇起点并非斯坦福实验室,而是15岁移民美国后一家中餐馆的午餐桌。在《我看见的世界》中,她回忆自己端盘子、擦桌子的日子,正是在那张油腻的餐桌旁,她萌生了用视觉理解世界的野心。从社区学院到普林斯顿,再到斯坦福,她将底层移民的生存韧性转化为对智能本质的追问——当无数生物学家研究显微镜下的细胞时,她选择研究“看见”本身:为什么人类能从一张照片瞬间识别物体,而机器不能?

从一张午餐桌到无限宇宙,李飞飞押注AI的下一个维度

ImageNet:一场数据革命如何点燃深度学习

2007年前后,李飞飞意识到现有物体识别研究被困在“小作坊式”的数据集里。她主导创建的ImageNet包含1500万张标注图片,覆盖2.2万个类别——这个被同行嘲讽为“疯狂”的项目,实则是用人类标注的海量数据给AI喂食“视觉常识”。2012年,AlexNet在ImageNet挑战赛上把错误率从26%骤降到15%,彻底引爆深度学习革命。李飞飞后来坦言:“ImageNet不是天才的灵光,而是对‘智能必须依赖规模’这一信念的偏执坚守。”

走出二维图像,李飞飞押注“空间智能”

2023年底,李飞飞在个人撰文中明确宣称:生成式AI的下一个战场是“空间智能”。她指出,当前的大模型虽然能生成精美图片和流畅文字,但本质上仍停留在二维像素平面,缺乏对三维世界物理规律、物体关系、运动因果的感知。她创立的World Labs正致力于让AI理解“一张椅子在房间里的真实位置”“杯子坠落时如何破碎”等空间逻辑。这不仅是技术升级——电梯、无人机、机器人要真正与人类协同,必须学会在动态三维中行动。

无尽边疆:让机器学会“看见”真实世界

李飞飞将空间智能比作“AI的最后一块拼图”。在近期某场全球AI辩论中,她与众多顶尖学者达成共识:未来十年,视觉模型必须从“识别对象”进化到“推理场景”。她设想一个空间智能体——它看一张早餐桌照片时,不仅识别出面包和咖啡,还能理解“杯子在桌子边缘,移动可能会掉”,甚至预判下一步动作。从端盘子的女孩到定义空间智能的拓荒者,李飞飞相信:当机器学会像人类一样理解三维宇宙时,AI才能真正嵌入物理世界。