越过“内存墙”，AI推理时代的晶圆级革命与算力路线

1 个月前

AI资讯

37 阅读

AI推理内存墙晶圆级集成算力路线

内存墙成为推理时代最大“拦路虎”

当AI从训练迈向推理，算力需求的重心从“算得快”转向“访存快”。训练可以批量处理、容忍延迟，而推理要求实时响应——用户每敲一个字、每按一次快门，都依赖模型在毫秒级内完成计算。然而，传统冯·诺依曼架构下，处理器与存储之间的数据传输速度远低于计算速度，形成了所谓的“内存墙”。当前，GPU在推理场景中的利用率往往低于30%，大量时间浪费在数据搬运而非实际计算上。随着大模型参数规模突破万亿，内存墙的瓶颈愈发尖锐，成为制约AI应用落地的关键。

晶圆级革命：把整张晶圆变成一颗芯片

为了越过内存墙，产业界已经开始向物理极限发起挑战。晶圆级集成技术应运而生——不再将单个芯片封装在基板上，而是直接将整片晶圆（如12英寸）用作运算与存储的载体，通过光刻工艺在晶圆上构建海量互联单元。这种方案大幅缩短了数据路径，将内存与计算单元在微观尺度上融合，使带宽提升数十倍，延迟降至纳秒级。例如，Cerebras的晶圆级引擎（WSE）通过将40万个AI核心集成在一张晶圆上，绕过了传统芯片间的I/O瓶颈，推理吞吐量可达普通GPU的百倍以上。这一革命正把“内存墙”从工程问题变成物理一体化的自然结果。

存储-计算一体化：从搬运数据到就地处理

光有晶圆级互联还不够，存储介质的根本变革同样关键。传统的DRAM和NAND在速度与容量之间难以兼得，而新型存储技术（如存储级内存SCM、近存计算）正试图打破这一困局。Solidigm等企业推出的高密度NAND与存算一体方案，让数据不必先搬到CPU/GPU再计算，而是存储单元本身具备一定算力。在推理场景中，这尤其适用于稀疏矩阵和注意力机制的运算——模型参数直接存储在计算单元旁边，每次推理只需局部激活，大幅降低功耗和延迟。正如行业所言，“AI的下半场，从存储开始”。

从GPU独大到异构算力路线图

推理时代的算力路线不再是GPU的独角戏。CPU继续承担调度与预处理，GPU/专用ASIC负责密集矩阵运算，而晶圆级芯片和存算一体器件则接管内存密集的瓶颈环节。一个典型的云端推理集群，正在演变为“CPU+GPU+晶圆级加速器+SCM”的异构组合。软件层面，编译器与框架开始针对不同硬件自动切分算子：把访存密集型任务卸载到晶圆级芯片，把计算密集型任务留给GPU。这种软硬协同的路线图，使得算力性价比从单纯的峰值TOPS转化为“有效利用率”的比拼。未来三年，推理算力成本有望因这一路线下降一个数量级。

越过“内存墙”，AI推理时代的晶圆级革命与算力路线

内存墙成为推理时代最大“拦路虎”

晶圆级革命：把整张晶圆变成一颗芯片

存储-计算一体化：从搬运数据到就地处理

从GPU独大到异构算力路线图

链接失效反馈