英伟达黄仁勋：LPX 等 SRAM AI 芯片将长期属于利基市场

2 个月前

AI资讯

57 阅读

黄仁勋 LPU [英伟达利基市场]

黄仁勋GTC定调：LPU为利基而生，不替代GPU

在2026年GTC大会上，英伟达正式发布了包含Groq 3 LPU的Vera Rubin计算平台。黄仁勋在演讲中指出，LPU的设计目标非常明确：追求极致的低延迟和高Token速率，但代价是吞吐量和容量都比较低。他直言，LPU在软件编程等上下文处理场景中表现出色，但在需要复杂推理的代理式任务上就不那么擅长。这一表态直接呼应了市场对LPU可能颠覆GPU的猜测。黄仁勋强调，LPU并非GPU的替代品，而是一种针对特定场景的“利基型”芯片，其核心价值在于填补GPU在时延敏感推理环节的空白。

速度与确定性：LPU用SRAM撕开推理痛点

LPU的核心竞争力源自其基于大容量片上SRAM的架构设计。单颗Groq 3 LPU集成了500MB的SRAM，并通过编译器将权重、激活和KV状态全部存放在片上，彻底摒弃了传统的缓存和数据搬运机制。这种设计带来了两个关键优势：一是极高的带宽和极低的延迟——片上SRAM的访问时延从GPU HBM的数十纳秒降至纳秒级，带宽高达150TB/s；二是“确定性延迟”，即每次推理的时间几乎完全相同，不会出现因缓存未命中或动态调度导致的抖动。庄昌磊指出，对于自动驾驶、工业控制等对实时性有严苛要求的场景，这种“每次都一样快”的能力是刚需，而通用GPU和云厂商的ASIC都难以做到。

从芯片到机架：LPX机架成系统级新变量

英伟达在此次GTC上的一大亮点是将LPU从单一的加速卡提升为一级机架系统——Groq 3 LPX机架。该机架集成了256颗LPU，配备128GB片上高速SRAM，传输速度高达640TB/s。庄昌磊认为，这标志着AI计算正从“训练为主”全面转向“训练+推理并重”，推理正在成为新的系统级基础设施。LPX机架与Vera Rubin平台协同工作，通过PD分离模式：Rubin GPU负责Prefill（大批量推理），LPU负责Decode（实时推理），两者通过高速互联（NVLink 6、CPO等）组成完整的算力体系。这一架构变革直接驱动了PCB产业链的全面升级——单块LPU机架主板的PCB价值量高达6000美元，整个机架的PCB总价值量达9.6万美元，较传统AI服务器提升超过10倍。

利基市场的边界：容量与成本的双重枷锁

尽管LPU在延迟和确定性上表现惊艳，但其局限性同样明显。单颗LPU的500MB SRAM容量极为有限，甚至无法直接运行Llama 2 70B这样的大型模型，需要数百颗LPU串联才能完成，这导致初始硬件投资和机房维护成本大幅攀升。相比之下，GPU仅需2-4块即可完成相同任务。此外，LPU高度专用的架构无法适配训练、图形渲染等通用任务，对动态模型结构的适应性也较差。正是这些结构性取舍，决定了LPU难以像GPU一样大规模普及。黄仁勋在GTC上明确表示，LPU将长期属于利基市场，其应用场景将聚焦于实时对话、语音助手、高频交易、游戏NPC对话等对首Token延迟和交互流畅度要求极高的小批量推理链路。

产业链连锁反应：PCB与材料迎来架构红利

LPU/LPX机柜的大规模部署，直接推动了对高阶PCB和高端材料的需求爆发。为支撑256颗LPU的高速互联，PCB必须采用52层以上的高层数设计，基材从普通覆铜板升级为M9级Q-glass布，增强材料从普通电子玻纤布转向价值是其10倍的Q-glass布。A股市场中，胜宏科技、沪电股份、深南电路等PCB龙头，以及菲利华（石英布）、生益科技（覆铜板）、德福科技（HVLP铜箔）等材料企业，因深度绑定英伟达供应链，被视为这场架构革命的直接受益者。庄昌磊指出，随着LPU在2026年底至2027年进入量产高峰期，对高阶HDI和高端材料的需求将呈现井喷态势，进一步加剧供需紧张，推动整个产业链进入新一轮扩产与升级周期。