AI算力变局：TPU正成为“另一个选项”

5 天前

AI资讯

13 阅读

谷歌芯片 AI算力 TPU

谷歌连出三招：TPU从“配角”变“主角”

过去一个月，围绕谷歌TPU的新闻密集轰炸。先是4月底，谷歌发布第八代TPU，首次将训练和推理拆分为两款独立芯片，剑指推理市场；紧接着，市场传出谷歌向英特尔下达大规模采购订单、并拟与三星共同开发新一代TPU的消息。尽管官方未公开回应，但一个清晰信号已经发出：当AI算力需求从训练全面转向推理，TPU这颗专门为AI设计的“张量处理器”，正从过去的GPU“替补”，强势站上主舞台。

AI算力变局：TPU正成为“另一个选项”

推理算力井喷：TPU的集群效率成为“杀手锏”

TPU崛起的背后，是算力需求的“权力交接”。国家数据局报告显示，2025年中国AI推理数据量首次超过训练；TrendForce预测，北美五大云厂商2026年推理算力将暴增122%，增速是训练的两倍以上。当模型参数迈向万亿级别，单颗芯片已无法承载完整推理，必须几十上百颗芯片协同作战。在这一点上，TPU的集群效率碾压GPU：GPU单机内部靠NVLink互联，跨机架还需额外采购交换机、光模块，硬件基建成本极高；而TPU机柜内芯片直通，仅跨柜时使用自研光电路交换机，整体部署成本显著降低。

架构差异决定命运：GPU的“大工厂”与TPU的“专用流水线”

TPU与GPU的本质区别，在于设计初衷。GPU诞生于游戏图形渲染，为了处理三维物体、光线和色彩，内部塞了上万个计算核心，像一个“一万人大工厂”，并发能力超强，但一旦出错很难追责。而AI深度学习是“一层一层往下算”，层内高并发但层间有严格顺序。TPU剔除了GPU的图形和通用计算功能，只聚焦矩阵运算。据中昊芯英CEO杨龚轶凡分析，同等工艺下，TPU性能比GPU高出3至5倍。正因这种专用性，使得在Token消耗指数级暴涨的“Token经济”时代，TPU的利用率与性价比优势愈发突出。

“442”新格局：CUDA生态仍是护城河，但TPU低门槛优势显著

未来AI芯片市场将走向何方？杨龚轶凡预测将形成“442”格局：40%是极致性价比的ASIC专用芯片（只能跑固定模型）；40%是可编程的DSA芯片，如TPU；20%是通用GPU，留给快速变化的新算法。GPU之所以能守住20%份额，靠的是CUDA生态——经过20年打磨，它像一个“修车工具箱”，开发者必须懂“发动机原理”才能玩转。而TPU策略是让开发者“只管开车，不用修车”：其硬件指令专为AI优化，并直接适配PyTorch等主流框架，开发者用熟悉的“乐高”搭模型，编译器和硬件自动优化，无需从头学新语言。这种低生态门槛，是TPU攻占主流市场的重要筹码。

AI算力变局：TPU正成为“另一个选项”

谷歌连出三招：TPU从“配角”变“主角”

推理算力井喷：TPU的集群效率成为“杀手锏”

架构差异决定命运：GPU的“大工厂”与TPU的“专用流水线”

“442”新格局：CUDA生态仍是护城河，但TPU低门槛优势显著

链接失效反馈