面壁智能等开源首个基于华为昇腾训练的1.58-bit 端侧大模型BitCPM-CANN

国产算力跑通1.58-bit三值大模型

5月25日,面壁智能联合清华大学、OpenBMB开源社区正式开源BitCPM-CANN——这是中国首个完全基于华为昇腾AI处理器实现端到端训练的三值(1.58-bit)大模型。该模型从量化算子、训练算法到全链路框架,均在昇腾平台上原生完成,涵盖0.5B、1B、3B、8B四个模型尺寸。与传统BF16精度相比,BitCPM-CANN在推理阶段释放约6倍显存红利,同时将模型能力保留率维持在90%–97.2%。这意味着,一个8B参数的BitCPM-CANN大模型,可以轻松运行在当前主流旗舰手机之上。

面壁智能等开源首个基于华为昇腾训练的1.58-bit 端侧大模型BitCPM-CANN

一次性推上8B,能力保留率高达97.2%

BitCPM-CANN直接将三值模型的规模推至80亿参数,是全球首个在昇腾上完成8B级别训练并开源的三值模型。在11项任务、四大类评测(常识、阅读理解、学科知识、数学推理)中,1B至8B档位的能力保留率在95.7%到97.2%之间。其中3B档位的保留率最高,达到97.2%。这一数据意味着,BitCPM-CANN与同尺寸全精度模型MiniCPM4的差距,已经小于许多全精度模型之间的差异。此前,昇腾上的低比特训练多停留在小规模验证阶段,面壁智能一次性发布全尺寸版本,让开发者可以“拿来就用”。

6倍显存红利让8B模型轻松跑进手机

相比BF16全精度模型,BitCPM-CANN节省约6倍显存。一个8B参数的全精度模型需要约16GB显存,而BitCPM-CANN三值版本不到3GB,可以流畅运行在一部手机上。配合混合专家模型(MoE)与算力卸载等技术,未来有望将60B规模的大模型装入8GB内存的终端设备。高通最新的旗舰芯片已支持2-bit原生推理,BitCPM-CANN的低比特权重可以直接“喂入”硬件。在内存持续涨价的当下,6倍显存红利不是优化,而是刚需——不增加物理内存,就能把模型能力提升数倍。

从方法论到工程底座,面壁智能的端侧技术体系

BitCPM-CANN不只是单个模型,它背后是一整套可复用的工程基础设施。面壁智能在GPU上率先跑通了1.58-bit训练的方法论,再整体迁移到昇腾平台,训练效率达到常规基线的95%。基于MindSpeed × Megatron-LM主干搭建的低比特训练底座,包含环境适配、32K长序列支持、并行策略、融合算子等完整体系,所有面向昇腾的低比特训练工作都可建立在同一套公共基础设施之上。从底层训练框架BM-Train,到端侧模型家族MiniCPM(Hugging Face总下载量超3000万),再到BitCPM-CANN,面壁智能构建了一条完整的端侧技术路线,打破国外在低比特大模型领域的垄断,开辟了国产算力+高效模型的新路径。