黄仁勋GTC完整演讲：生成Token的成本与效率，决定科技企业的营收与生死

3 个月前

AI资讯

100 阅读

黄仁勋 AI基础设施 GTC大会 NVIDIA

在2026年圣何塞GTC大会的开幕演讲中，黄仁勋重申了NVIDIA向AI基础设施公司的转型，并提出了一个宏大的“五层蛋糕”架构，涵盖从能源、芯片、基础设施、模型到应用的完整生态。他强调，AI的发展正从单纯的数字生成跨越到物理AI和代理式AI（Agentic AI）的大爆发时代。这意味着AI将不再局限于屏幕内的回答，而是具备在三维物理世界中行动、交互及自主执行复杂任务的能力。支撑这一愿景的，是全球计算需求将在2027年突破1万亿美元的基础设施建设浪潮。

黄仁勋GTC完整演讲：生成Token的成本与效率，决定科技企业的营收与生死

核心观点在于，AI时代已经进入了“推理的拐点”，Token成为了新的基础货币。黄仁勋指出，生成Token的成本与效率直接决定了科技企业的营收与生死。随着AI从感知、生成进化到推理和执行阶段，算力需求呈指数级暴增。企业未来的数据中心将不再是存储文件的仓库，而是生产Token的“Token工厂”。在这个模型下，AI工厂的收入公式被定义为“每瓦特Token数”，即在固定的电力限制下，最大化Token的产出量和生成速度。NVIDIA宣称其系统是目前全球每Token成本最低的计算方案，这也是其争夺行业经济学底层逻辑的关键。

为了在激烈的竞争中保持绝对领先，NVIDIA不仅发布了全新的硬件架构，更展示了极致的系统工程能力。继Blackwell之后，下一代“Vera Rubin”架构成为全场焦点，其中Vera CPU与Rubin GPU的组合专为AI代理系统设计，支持在一个系统中连接多达144个GPU。更令人瞩目的是NVIDIA针对不同场景的策略：在通用高吞吐量领域，Vera Rubin通过液冷和共封装光学（CPO）技术，相比前代Blackwell有望带来5倍的营收产出比；而在对延迟极度敏感的“极速推理”场景（如每秒1000 Token），NVIDIA通过引入被收购的Groq技术，配合其自研软件Dynamo实现“解耦推理”，将预填充与解码阶段分离，从而突破带宽瓶颈。这种软硬协同与垂直整合的策略，旨在满足从免费层级到Premium高级服务等不同细分市场对Token生成速度和成本的严苛要求。

在硬件壁垒之外，NVIDIA正通过软件和生态构建更深的护城河。时值CUDA诞生20周年，其数亿GPU装机量形成的飞轮效应愈发显著。与此同时，NVIDIA正式推出了专为代理式AI打造的“NemoClaw”参考堆栈，这被视为Agent计算机的“操作系统”，允许开发者在保障隐私安全的前提下快速构建个性化AI Agent。在物理AI领域，NVIDIA发布了专为人形机器人设计的通用基础模型Project GR00T，以及全方位更新的Isaac机器人平台，展示了AI从虚拟世界走向物理世界的全面布局。这一系列动作表明，NVIDIA正试图彻底垄断AI赋能现实世界的每一层基础设施，将加速计算像电力一样融入人类文明的日常运转之中。

黄仁勋GTC完整演讲：生成Token的成本与效率，决定科技企业的营收与生死

链接失效反馈