别盯着GPU了，CPU正成为AI时代的“新瓶颈”

1 个月前

AI资讯

22 阅读

AI Agentic [cpu瓶颈算力架构系统性能]

过去几年，GPU被视为AI训练与推理的核心硬件，尤其是在深度学习模型参数膨胀和计算密集的背景下，英伟达的H100、A100等产品成为市场“硬通货”。然而，随着AI模型从单次推理转向更复杂的“智能体”（Agentic AI）架构，系统整体性能的瓶颈逐渐由GPU侧转移至CPU端。

所谓智能体架构，是指AI系统不再只是被动响应查询，而是能主动执行多步推理、调用API、管理数据流与业务逻辑，甚至编写代码。这种任务特性要求CPU具备更强的调度、编排与系统级协同能力，而不再只是GPU的“配角”。

在传统AI推理场景中，CPU主要负责数据预处理和模型调用，而真正的“思考”过程由GPU完成。然而，智能体工作负载的复杂性大幅提升，CPU承担了更多任务：

根据佐治亚理工学院2025年11月发布的研究，《以CPU为中心的智能体型AI视角》指出，CPU端工具处理所占延迟在智能体架构中高达50%至90.6%。在某些情况下，GPU已完成当前token生成，但CPU仍在等待API调用返回，导致GPU处于闲置状态。

此外，模型上下文窗口的扩展也加剧了CPU压力。2025年起，主流模型开始支持百万级token，KV缓存需求随之膨胀至200GB以上，远超H100的80GB显存。这种情况下，缓存数据需要卸载至CPU内存，对CPU的内存容量与带宽提出更高要求。

别盯着GPU了，CPU正成为AI时代的“新瓶颈”

随着CPU在AI系统中的地位上升，各大厂商纷纷调整策略：

Ben Bajarin（Creative Strategies）：系统协作中，CPU性能必须与加速器同步迭代，否则即便是微小延迟，也会显著降低集群经济效益。
Holger Mueller（Constellation Research）：在智能体世界中，API调用、业务编排等工作更适合CPU处理，其地位正在回归核心。

当前的AI基础设施演进呈现出一个新趋势：除了GPU集群外，厂商正在部署专为智能体架构优化的“CPU调度层”。这不仅包括高性能CPU硬件，还涵盖定制化的芯片设计、高速互连协议、系统级优化等。

这意味着，未来的AI系统将不再单靠GPU“堆算力”，而是依赖CPU与GPU之间的协同效率。谁能在系统级架构上实现更高效的数据调度与任务执行，谁就可能在智能体时代占据主导地位。

随着谷歌、Meta、英伟达、AMD和英特尔的持续投入，CPU在AI系统中的地位已从“执行辅助”跃升为“性能关键节点”。2026年，这一变化标志着AI算力进入一个新阶段，也预示着一场围绕CPU性能、系统架构与互连效率的新一轮竞争正在拉开帷幕。