别盯着GPU了,CPU正成为AI时代的“新瓶颈”
背景:AI算力架构的演变
过去几年,GPU被视为AI训练与推理的核心硬件,尤其是在深度学习模型参数膨胀和计算密集的背景下,英伟达的H100、A100等产品成为市场“硬通货”。然而,随着AI模型从单次推理转向更复杂的“智能体”(Agentic AI)架构,系统整体性能的瓶颈逐渐由GPU侧转移至CPU端。
所谓智能体架构,是指AI系统不再只是被动响应查询,而是能主动执行多步推理、调用API、管理数据流与业务逻辑,甚至编写代码。这种任务特性要求CPU具备更强的调度、编排与系统级协同能力,而不再只是GPU的“配角”。
原因分析:CPU为何成为瓶颈?
在传统AI推理场景中,CPU主要负责数据预处理和模型调用,而真正的“思考”过程由GPU完成。然而,智能体工作负载的复杂性大幅提升,CPU承担了更多任务:
- 搜索与API调用
- 代码执行与结果编排
- 数据库读写
- 多步骤任务调度
根据佐治亚理工学院2025年11月发布的研究,《以CPU为中心的智能体型AI视角》指出,CPU端工具处理所占延迟在智能体架构中高达50%至90.6%。在某些情况下,GPU已完成当前token生成,但CPU仍在等待API调用返回,导致GPU处于闲置状态。
此外,模型上下文窗口的扩展也加剧了CPU压力。2025年起,主流模型开始支持百万级token,KV缓存需求随之膨胀至200GB以上,远超H100的80GB显存。这种情况下,缓存数据需要卸载至CPU内存,对CPU的内存容量与带宽提出更高要求。

行业动态:厂商应对策略分化
随着CPU在AI系统中的地位上升,各大厂商纷纷调整策略:
英特尔:深化合作,巩固优势
- 与谷歌达成多年协议,全球部署至强处理器
- 与SambaNova合作,推出“至强+RDU”组合方案,主打无需GPU即可运行智能体推理
- 至强6 Granite Rapids与18A工艺路线图被视为关键翻盘机会
AMD:最大受益者,但协同能力不足
- 第五代EPYC Turin处理器占据服务器CPU市场增长主力
- 2025年Q4服务器CPU市场份额突破40%
- 与Meta达成潜在千亿级交易,供应MI450 GPU与Venice EPYC CPU
- 缺乏类似NVLink C2C的高速互连方案,影响系统效率
英伟达:重新设计CPU角色
- 推出Grace CPU与NVLink C2C技术,实现CPU与GPU间1.8TB/s带宽
- CPU可直接访问GPU内存,简化KV缓存管理
- Grace CPU以独立产品(Vera CPU)销售,首个客户为CoreWeave
- 首次实现“纯Grace部署”,CPU不再依附GPU
行业观点:算力天平正在回摆
行业分析师观点:
- Ben Bajarin(Creative Strategies):系统协作中,CPU性能必须与加速器同步迭代,否则即便是微小延迟,也会显著降低集群经济效益。
- Holger Mueller(Constellation Research):在智能体世界中,API调用、业务编排等工作更适合CPU处理,其地位正在回归核心。
英伟达高管解释:
- Dion Harris(英伟达AI基础设施负责人):核心数是成本问题,每核心美元成本是决定因素。超大规模企业更倾向于高核心密度方案。
展望:新的基础设施层正在形成
当前的AI基础设施演进呈现出一个新趋势:除了GPU集群外,厂商正在部署专为智能体架构优化的“CPU调度层”。这不仅包括高性能CPU硬件,还涵盖定制化的芯片设计、高速互连协议、系统级优化等。
这意味着,未来的AI系统将不再单靠GPU“堆算力”,而是依赖CPU与GPU之间的协同效率。谁能在系统级架构上实现更高效的数据调度与任务执行,谁就可能在智能体时代占据主导地位。
随着谷歌、Meta、英伟达、AMD和英特尔的持续投入,CPU在AI系统中的地位已从“执行辅助”跃升为“性能关键节点”。2026年,这一变化标志着AI算力进入一个新阶段,也预示着一场围绕CPU性能、系统架构与互连效率的新一轮竞争正在拉开帷幕。