越过“内存墙”,AI推理时代的晶圆级革命与算力路线
内存墙成为推理时代最大“拦路虎”
当AI从训练迈向推理,算力需求的重心从“算得快”转向“访存快”。训练可以批量处理、容忍延迟,而推理要求实时响应——用户每敲一个字、每按一次快门,都依赖模型在毫秒级内完成计算。然而,传统冯·诺依曼架构下,处理器与存储之间的数据传输速度远低于计算速度,形成了所谓的“内存墙”。当前,GPU在推理场景中的利用率往往低于30%,大量时间浪费在数据搬运而非实际计算上。随着大模型参数规模突破万亿,内存墙的瓶颈愈发尖锐,成为制约AI应用落地的关键。
晶圆级革命:把整张晶圆变成一颗芯片
为了越过内存墙,产业界已经开始向物理极限发起挑战。晶圆级集成技术应运而生——不再将单个芯片封装在基板上,而是直接将整片晶圆(如12英寸)用作运算与存储的载体,通过光刻工艺在晶圆上构建海量互联单元。这种方案大幅缩短了数据路径,将内存与计算单元在微观尺度上融合,使带宽提升数十倍,延迟降至纳秒级。例如,Cerebras的晶圆级引擎(WSE)通过将40万个AI核心集成在一张晶圆上,绕过了传统芯片间的I/O瓶颈,推理吞吐量可达普通GPU的百倍以上。这一革命正把“内存墙”从工程问题变成物理一体化的自然结果。
存储-计算一体化:从搬运数据到就地处理
光有晶圆级互联还不够,存储介质的根本变革同样关键。传统的DRAM和NAND在速度与容量之间难以兼得,而新型存储技术(如存储级内存SCM、近存计算)正试图打破这一困局。Solidigm等企业推出的高密度NAND与存算一体方案,让数据不必先搬到CPU/GPU再计算,而是存储单元本身具备一定算力。在推理场景中,这尤其适用于稀疏矩阵和注意力机制的运算——模型参数直接存储在计算单元旁边,每次推理只需局部激活,大幅降低功耗和延迟。正如行业所言,“AI的下半场,从存储开始”。
从GPU独大到异构算力路线图
推理时代的算力路线不再是GPU的独角戏。CPU继续承担调度与预处理,GPU/专用ASIC负责密集矩阵运算,而晶圆级芯片和存算一体器件则接管内存密集的瓶颈环节。一个典型的云端推理集群,正在演变为“CPU+GPU+晶圆级加速器+SCM”的异构组合。软件层面,编译器与框架开始针对不同硬件自动切分算子:把访存密集型任务卸载到晶圆级芯片,把计算密集型任务留给GPU。这种软硬协同的路线图,使得算力性价比从单纯的峰值TOPS转化为“有效利用率”的比拼。未来三年,推理算力成本有望因这一路线下降一个数量级。