英伟达黄仁勋:LPX 等 SRAM AI 芯片将长期属于利基市场
黄仁勋GTC定调:LPU为利基而生,不替代GPU
在2026年GTC大会上,英伟达正式发布了包含Groq 3 LPU的Vera Rubin计算平台。黄仁勋在演讲中指出,LPU的设计目标非常明确:追求极致的低延迟和高Token速率,但代价是吞吐量和容量都比较低。他直言,LPU在软件编程等上下文处理场景中表现出色,但在需要复杂推理的代理式任务上就不那么擅长。这一表态直接呼应了市场对LPU可能颠覆GPU的猜测。黄仁勋强调,LPU并非GPU的替代品,而是一种针对特定场景的“利基型”芯片,其核心价值在于填补GPU在时延敏感推理环节的空白。
速度与确定性:LPU用SRAM撕开推理痛点
LPU的核心竞争力源自其基于大容量片上SRAM的架构设计。单颗Groq 3 LPU集成了500MB的SRAM,并通过编译器将权重、激活和KV状态全部存放在片上,彻底摒弃了传统的缓存和数据搬运机制。这种设计带来了两个关键优势:一是极高的带宽和极低的延迟——片上SRAM的访问时延从GPU HBM的数十纳秒降至纳秒级,带宽高达150TB/s;二是“确定性延迟”,即每次推理的时间几乎完全相同,不会出现因缓存未命中或动态调度导致的抖动。庄昌磊指出,对于自动驾驶、工业控制等对实时性有严苛要求的场景,这种“每次都一样快”的能力是刚需,而通用GPU和云厂商的ASIC都难以做到。
从芯片到机架:LPX机架成系统级新变量
英伟达在此次GTC上的一大亮点是将LPU从单一的加速卡提升为一级机架系统——Groq 3 LPX机架。该机架集成了256颗LPU,配备128GB片上高速SRAM,传输速度高达640TB/s。庄昌磊认为,这标志着AI计算正从“训练为主”全面转向“训练+推理并重”,推理正在成为新的系统级基础设施。LPX机架与Vera Rubin平台协同工作,通过PD分离模式:Rubin GPU负责Prefill(大批量推理),LPU负责Decode(实时推理),两者通过高速互联(NVLink 6、CPO等)组成完整的算力体系。这一架构变革直接驱动了PCB产业链的全面升级——单块LPU机架主板的PCB价值量高达6000美元,整个机架的PCB总价值量达9.6万美元,较传统AI服务器提升超过10倍。
利基市场的边界:容量与成本的双重枷锁
尽管LPU在延迟和确定性上表现惊艳,但其局限性同样明显。单颗LPU的500MB SRAM容量极为有限,甚至无法直接运行Llama 2 70B这样的大型模型,需要数百颗LPU串联才能完成,这导致初始硬件投资和机房维护成本大幅攀升。相比之下,GPU仅需2-4块即可完成相同任务。此外,LPU高度专用的架构无法适配训练、图形渲染等通用任务,对动态模型结构的适应性也较差。正是这些结构性取舍,决定了LPU难以像GPU一样大规模普及。黄仁勋在GTC上明确表示,LPU将长期属于利基市场,其应用场景将聚焦于实时对话、语音助手、高频交易、游戏NPC对话等对首Token延迟和交互流畅度要求极高的小批量推理链路。
产业链连锁反应:PCB与材料迎来架构红利
LPU/LPX机柜的大规模部署,直接推动了对高阶PCB和高端材料的需求爆发。为支撑256颗LPU的高速互联,PCB必须采用52层以上的高层数设计,基材从普通覆铜板升级为M9级Q-glass布,增强材料从普通电子玻纤布转向价值是其10倍的Q-glass布。A股市场中,胜宏科技、沪电股份、深南电路等PCB龙头,以及菲利华(石英布)、生益科技(覆铜板)、德福科技(HVLP铜箔)等材料企业,因深度绑定英伟达供应链,被视为这场架构革命的直接受益者。庄昌磊指出,随着LPU在2026年底至2027年进入量产高峰期,对高阶HDI和高端材料的需求将呈现井喷态势,进一步加剧供需紧张,推动整个产业链进入新一轮扩产与升级周期。