AI算力变局:TPU正成为“另一个选项”
谷歌连出三招:TPU从“配角”变“主角”
过去一个月,围绕谷歌TPU的新闻密集轰炸。先是4月底,谷歌发布第八代TPU,首次将训练和推理拆分为两款独立芯片,剑指推理市场;紧接着,市场传出谷歌向英特尔下达大规模采购订单、并拟与三星共同开发新一代TPU的消息。尽管官方未公开回应,但一个清晰信号已经发出:当AI算力需求从训练全面转向推理,TPU这颗专门为AI设计的“张量处理器”,正从过去的GPU“替补”,强势站上主舞台。

推理算力井喷:TPU的集群效率成为“杀手锏”
TPU崛起的背后,是算力需求的“权力交接”。国家数据局报告显示,2025年中国AI推理数据量首次超过训练;TrendForce预测,北美五大云厂商2026年推理算力将暴增122%,增速是训练的两倍以上。当模型参数迈向万亿级别,单颗芯片已无法承载完整推理,必须几十上百颗芯片协同作战。在这一点上,TPU的集群效率碾压GPU:GPU单机内部靠NVLink互联,跨机架还需额外采购交换机、光模块,硬件基建成本极高;而TPU机柜内芯片直通,仅跨柜时使用自研光电路交换机,整体部署成本显著降低。
架构差异决定命运:GPU的“大工厂”与TPU的“专用流水线”
TPU与GPU的本质区别,在于设计初衷。GPU诞生于游戏图形渲染,为了处理三维物体、光线和色彩,内部塞了上万个计算核心,像一个“一万人大工厂”,并发能力超强,但一旦出错很难追责。而AI深度学习是“一层一层往下算”,层内高并发但层间有严格顺序。TPU剔除了GPU的图形和通用计算功能,只聚焦矩阵运算。据中昊芯英CEO杨龚轶凡分析,同等工艺下,TPU性能比GPU高出3至5倍。正因这种专用性,使得在Token消耗指数级暴涨的“Token经济”时代,TPU的利用率与性价比优势愈发突出。
“442”新格局:CUDA生态仍是护城河,但TPU低门槛优势显著
未来AI芯片市场将走向何方?杨龚轶凡预测将形成“442”格局:40%是极致性价比的ASIC专用芯片(只能跑固定模型);40%是可编程的DSA芯片,如TPU;20%是通用GPU,留给快速变化的新算法。GPU之所以能守住20%份额,靠的是CUDA生态——经过20年打磨,它像一个“修车工具箱”,开发者必须懂“发动机原理”才能玩转。而TPU策略是让开发者“只管开车,不用修车”:其硬件指令专为AI优化,并直接适配PyTorch等主流框架,开发者用熟悉的“乐高”搭模型,编译器和硬件自动优化,无需从头学新语言。这种低生态门槛,是TPU攻占主流市场的重要筹码。