黄仁勋GTC完整演讲:生成Token的成本与效率,决定科技企业的营收与生死

在2026年圣何塞GTC大会的开幕演讲中,黄仁勋重申了NVIDIA向AI基础设施公司的转型,并提出了一个宏大的“五层蛋糕”架构,涵盖从能源、芯片、基础设施、模型到应用的完整生态。他强调,AI的发展正从单纯的数字生成跨越到物理AI和代理式AI(Agentic AI)的大爆发时代。这意味着AI将不再局限于屏幕内的回答,而是具备在三维物理世界中行动、交互及自主执行复杂任务的能力。支撑这一愿景的,是全球计算需求将在2027年突破1万亿美元的基础设施建设浪潮。

黄仁勋GTC完整演讲:生成Token的成本与效率,决定科技企业的营收与生死

核心观点在于,AI时代已经进入了“推理的拐点”,Token成为了新的基础货币。黄仁勋指出,生成Token的成本与效率直接决定了科技企业的营收与生死。随着AI从感知、生成进化到推理和执行阶段,算力需求呈指数级暴增。企业未来的数据中心将不再是存储文件的仓库,而是生产Token的“Token工厂”。在这个模型下,AI工厂的收入公式被定义为“每瓦特Token数”,即在固定的电力限制下,最大化Token的产出量和生成速度。NVIDIA宣称其系统是目前全球每Token成本最低的计算方案,这也是其争夺行业经济学底层逻辑的关键。

为了在激烈的竞争中保持绝对领先,NVIDIA不仅发布了全新的硬件架构,更展示了极致的系统工程能力。继Blackwell之后,下一代“Vera Rubin”架构成为全场焦点,其中Vera CPU与Rubin GPU的组合专为AI代理系统设计,支持在一个系统中连接多达144个GPU。更令人瞩目的是NVIDIA针对不同场景的策略:在通用高吞吐量领域,Vera Rubin通过液冷和共封装光学(CPO)技术,相比前代Blackwell有望带来5倍的营收产出比;而在对延迟极度敏感的“极速推理”场景(如每秒1000 Token),NVIDIA通过引入被收购的Groq技术,配合其自研软件Dynamo实现“解耦推理”,将预填充与解码阶段分离,从而突破带宽瓶颈。这种软硬协同与垂直整合的策略,旨在满足从免费层级到Premium高级服务等不同细分市场对Token生成速度和成本的严苛要求。

在硬件壁垒之外,NVIDIA正通过软件和生态构建更深的护城河。时值CUDA诞生20周年,其数亿GPU装机量形成的飞轮效应愈发显著。与此同时,NVIDIA正式推出了专为代理式AI打造的“NemoClaw”参考堆栈,这被视为Agent计算机的“操作系统”,允许开发者在保障隐私安全的前提下快速构建个性化AI Agent。在物理AI领域,NVIDIA发布了专为人形机器人设计的通用基础模型Project GR00T,以及全方位更新的Isaac机器人平台,展示了AI从虚拟世界走向物理世界的全面布局。这一系列动作表明,NVIDIA正试图彻底垄断AI赋能现实世界的每一层基础设施,将加速计算像电力一样融入人类文明的日常运转之中。