李飞飞再出手,空间智能的ImageNet来了

两个新基准横空出世,填补空间智能测评空白

斯坦福李飞飞与吴佳俊团队先后推出两大标杆级数据集:ESI-BenchHourVideo。前者专为具身空间智能评测设计,摒弃过去默认给模型最优观测的偏袒式做法,要求机器人智能体在动态、不确定的真实环境中完成感知与决策;后者则聚焦长达一小时视频的理解,挑战多模态模型对长时间跨度中物理因果、空间关系的连贯推理。两者共同构成一套从“瞬时感知”到“长时推理”的完整评估体系,被业界视为继ImageNet之后,为空间智能领域奠定基石的关键一步。

李飞飞再出手,空间智能的ImageNet来了

空间智能:从感知到行动的认知飞跃

李飞飞在万字长文中反复强调,空间智能远非简单的“看见”,而是一种将视觉升华为推理、将感知蜕变为行动、将想象落地为创造的底层能力。她指出,当前最先进的多模态大语言模型在估算距离、方向、进行物体心理旋转等基础空间任务时表现甚至不如随机猜测;它们能生成惊艳的短视频,但几秒后便失去物理连贯性。正如1950年图灵对“机器能否思考”的叩问,李飞飞认为,下一个十年AI的真正前沿在于理解并生成一个语义、几何、动态与物理高度一致的世界——这正是空间智能的终极目标。

World Labs与Marble:让空间智能触手可及

为了实现这一愿景,李飞飞一年前联合创立了World Labs,并推出首个项目Marble。Marble是全球首个能够通过多模态输入提示生成并维持一致三维环境的世界模型,用户无需传统3D设计软件的沉重负担,即可快速创建、编辑和探索可交互的虚拟空间。李飞飞将其称为“故事讲述者的新画布”——电影制作人能即时搭建场景,建筑师能在尚未存在的建筑中漫步。这种能力正在模糊游戏、电影与模拟的界限,让创作者以前所未有的效率将想象力具象化。

落地场景:从机器人陪护到科学发现

空间智能的革命性已开始向多个领域渗透。在机器人领域,具备空间智能的机器人才可能成为真正的协作者——例如实验室助手处理仪器、家庭陪护为老年人做饭而不剥夺其自主性。在医疗健康中,斯坦福团队正通过多维空间建模加速药物发现,并通过环境监测系统辅助照护。教育方面,学生将能在三维细胞结构中漫游,教师则获得个性化互动教学工具。李飞飞强调,这些应用的核心始终是“增强而非取代人类”——空间智能旨在放大人类的创造力与同理心,而非让机器代替人性。