LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

1 个月前

AI资讯

75 阅读

AI创业 [隐空间世界模型视觉大模型 LeCun]

LeCun押注10亿美元，这支团队早已先行

AI界的风向标正在从语言模型转向物理世界。图灵奖得主Yann LeCun离开Meta创办AMI Labs，融资10.3亿美元创下欧洲种子轮纪录，核心方向正是隐空间世界模型。而几乎同一时间，做出全球第一视觉大模型Grounding DINO、DINO-X的视启未来团队，已经在这条路线上深耕多年。在2026深圳全球人工智能终端展上，视启未来创始人张磊直言：“隐空间世界模型很难，但我们一定要做。”

隐空间世界模型：不执着于像素，更关注因果演化

为什么LeCun和张磊不约而同选择了隐空间？张磊在演讲中解释，如果在像素空间做预测，模型容易被纹理、光照、背景等细节干扰，难以学到真实的因果关系和物理规律。这正是LeCun所说“在输入空间做预测是糟糕的”的根源。隐空间的优势在于将高维视觉输入压缩成抽象状态表示，过滤冗余像素，聚焦于“世界状态如何演化”——模型可以学会“执行某个动作之后，世界状态将如何变化”，从而为强化学习提供内部预演空间，支持机器人在稀疏反馈和复杂约束下完成决策与学习。

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

物体理解能力，才是隐空间建模的钥匙

张磊强调，如果模型不知道场景里有哪些独立物体、它们之间的关系、哪些变化来自视角、哪些来自交互，在隐空间中直接学习物理规律依然困难重重。视启未来的解法是把物体理解能力引入Latent表征学习。团队连续推出的DINO、Grounding DINO、DINO-X系列，正是面向开放世界物体级视觉理解的基座模型。这些工作被谷歌DeepMind的Vision Banana论文多次引用（包括何恺明、谢赛宁署名），并在SA-CO任务上被列为zero-shot物体理解的全球SOTA。此外，Meta的SAM2/SAM3、阿里Qwen系列、字节Seed系列也广泛引用DINO系列论文，证明了视觉物体理解基模在物理世界建模中的核心地位。

具体能力栈包括：

2D物体检测与分割
3D物体理解与语义理解
3D动作理解与物体交互

这种从“看见物体”到“理解物体”再到“理解动作与交互”的完整链条，为隐空间世界模型提供了结构化、因果化的底层表征。

EgoTwin发布：从数据引擎到本体落地的闭环

模型能力正在产品上快速落地。5月15日，视启未来联合百度智能云发布EgoTwin——全球最新的高质量Ego人手3D对齐引擎。它不仅是数据采集工具，更能将人类Ego操作视频转化为机器人可学习的数据资产，为世界模型提供Action-Aligned训练底座。这构成了“数据引擎—模型迭代—本体落地”的闭环第一步。在张磊看来，物理世界正发生类似数字世界的范式变化：底层是算力，中间是视觉大模型，上层是各类机器人本体。视启未来正在打通“从经验中学习”的范式，让机器人在学习过程中更加自主、高效。

世界级目标吸引世界级人才

视启未来团队核心来自IDEA CVR孵化的DINO-X团队，创始人张磊为IEEE Fellow，Google Scholar引用超7.3万次，曾任职微软亚洲研究院首席研究员。团队还邀请了张钹院士、沈向洋院士担任科学顾问。核心成员主要来自清华大学、微软、腾讯等顶尖机构与科技大厂。据视启透露，约50%成员有清华背景，20%拥有智能驾驶经验，80%为90后青年人才，100%具备海内外头部科技企业经历。这支团队用一个又一个全球领先模型证明：连续做出Grounding DINO、DINO-X等视觉基座大模型，意味着底层数据组织、预训练范式、能力迁移的系统方法已经成型——而这正是隐空间世界模型时代最稀缺的竞争力。

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

LeCun押注10亿美元，这支团队早已先行

隐空间世界模型：不执着于像素，更关注因果演化

物体理解能力，才是隐空间建模的钥匙

EgoTwin发布：从数据引擎到本体落地的闭环

世界级目标吸引世界级人才

链接失效反馈