LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

LeCun押注10亿美元,这支团队早已先行

AI界的风向标正在从语言模型转向物理世界。图灵奖得主Yann LeCun离开Meta创办AMI Labs,融资10.3亿美元创下欧洲种子轮纪录,核心方向正是隐空间世界模型。而几乎同一时间,做出全球第一视觉大模型Grounding DINO、DINO-X的视启未来团队,已经在这条路线上深耕多年。在2026深圳全球人工智能终端展上,视启未来创始人张磊直言:“隐空间世界模型很难,但我们一定要做。”

隐空间世界模型:不执着于像素,更关注因果演化

为什么LeCun和张磊不约而同选择了隐空间?张磊在演讲中解释,如果在像素空间做预测,模型容易被纹理、光照、背景等细节干扰,难以学到真实的因果关系和物理规律。这正是LeCun所说“在输入空间做预测是糟糕的”的根源。隐空间的优势在于将高维视觉输入压缩成抽象状态表示,过滤冗余像素,聚焦于“世界状态如何演化”——模型可以学会“执行某个动作之后,世界状态将如何变化”,从而为强化学习提供内部预演空间,支持机器人在稀疏反馈和复杂约束下完成决策与学习。

LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

物体理解能力,才是隐空间建模的钥匙

张磊强调,如果模型不知道场景里有哪些独立物体、它们之间的关系、哪些变化来自视角、哪些来自交互,在隐空间中直接学习物理规律依然困难重重。视启未来的解法是把物体理解能力引入Latent表征学习。团队连续推出的DINO、Grounding DINO、DINO-X系列,正是面向开放世界物体级视觉理解的基座模型。这些工作被谷歌DeepMind的Vision Banana论文多次引用(包括何恺明、谢赛宁署名),并在SA-CO任务上被列为zero-shot物体理解的全球SOTA。此外,Meta的SAM2/SAM3、阿里Qwen系列、字节Seed系列也广泛引用DINO系列论文,证明了视觉物体理解基模在物理世界建模中的核心地位。

具体能力栈包括:

  • 2D物体检测与分割
  • 3D物体理解与语义理解
  • 3D动作理解与物体交互

这种从“看见物体”到“理解物体”再到“理解动作与交互”的完整链条,为隐空间世界模型提供了结构化、因果化的底层表征。

EgoTwin发布:从数据引擎到本体落地的闭环

模型能力正在产品上快速落地。5月15日,视启未来联合百度智能云发布EgoTwin——全球最新的高质量Ego人手3D对齐引擎。它不仅是数据采集工具,更能将人类Ego操作视频转化为机器人可学习的数据资产,为世界模型提供Action-Aligned训练底座。这构成了“数据引擎—模型迭代—本体落地”的闭环第一步。在张磊看来,物理世界正发生类似数字世界的范式变化:底层是算力,中间是视觉大模型,上层是各类机器人本体。视启未来正在打通“从经验中学习”的范式,让机器人在学习过程中更加自主、高效。

世界级目标吸引世界级人才

视启未来团队核心来自IDEA CVR孵化的DINO-X团队,创始人张磊为IEEE Fellow,Google Scholar引用超7.3万次,曾任职微软亚洲研究院首席研究员。团队还邀请了张钹院士、沈向洋院士担任科学顾问。核心成员主要来自清华大学、微软、腾讯等顶尖机构与科技大厂。据视启透露,约50%成员有清华背景,20%拥有智能驾驶经验,80%为90后青年人才,100%具备海内外头部科技企业经历。这支团队用一个又一个全球领先模型证明:连续做出Grounding DINO、DINO-X等视觉基座大模型,意味着底层数据组织、预训练范式、能力迁移的系统方法已经成型——而这正是隐空间世界模型时代最稀缺的竞争力。