20岁写出Transformer的人，真开源了2180亿大模型

2 个月前

AI资讯

55 阅读

大模型开源 Transformer Cohere

单卡运行的2180亿巨兽：Command A+震撼开源

5月20日，Transformer论文共同作者Aidan Gomez在X上宣布，Cohere推出首个完全开源（Apache 2.0许可）的旗舰模型——Command A+。这是一个混合专家模型（MoE），总参数高达2180亿，但每次推理仅激活250亿参数。最令人瞩目的是，通过独创的W4A4量化与量化感知蒸馏技术，这个庞然大物竟能跑在单张NVIDIA B200或两张H100上。Cohere联合创始人Nick Frosst称其为“我们发过最好的模型”。

从CC-BY-NC到Apache 2.0：一次彻底的松手

在AI圈，“开源”常被玩坏——很多公司放出权重却套着限制性商用条款。Command A+之前的Command R系列采用CC-BY-NC 4.0（仅限非商业研究），而这次直接跳到了Apache 2.0，一个OSI认可的真正开源许可证。这意味着独立开发者到世界500强企业都能自由使用、修改、分发并商业化该模型，无需授权费或竞业条款。企业可以用内部数据微调、部署在私有服务器甚至气隙网络中，彻底摆脱供应商绑定。

20岁写出Transformer的人，真开源了2180亿大模型

推理与追溯并重：原生引用让AI输出可问责

Command A+原生支持“溯源标记”（grounding spans）：当它从外部工具检索信息时，会明确标出每个数据的来源。例如生成销售报告时，它会指出哪个数据库查询提供了具体数字。这项设计直接击中金融、医疗等行业的信任痛点。在复杂推理测试中，²-Bench Telecom上的成绩从37%跃升至85%，AIME 25数学测试从57%升至90%。VentureBeat评价，它用250亿激活参数在纯推理和数学上媲美万亿参数模型。

降本增效的三重账本：算力、速度与多语言

Command A+的W4A4版本输出速度较前代最高提升63%，首token延迟降低17%。新分词器让非欧洲语言更省token：阿拉伯语少20%，日语少18%，韩语少16%。推理按token计费，token减少直接拉低跨国部署的账单。Cohere还与德国AI公司Aleph Alpha合并，两家共同方向是为政府和大企业做可私有化部署的AI。

20岁天才的创业之路：从睡办公室到执掌独角兽

2017年，20岁的Aidan Gomez在Google Brain实习时参与撰写了《Attention Is All You Need》。为了赶截稿，他和同事们睡在办公室。2019年，他与Ivan Zhang、Nick Frosst在多伦多创立Cohere，专注企业级AI。Ivan Zhang是辍学的华人创业者，两人从FOR.ai起步，将“玩技术”的文化带入公司。如今Cohere估值超21亿美元，投资者包括NVIDIA、Oracle、Salesforce以及Geoffrey Hinton。Aidan坦言：“没人预料到那篇论文会把整个AI行业带到今天。”而Command A+的Apache 2.0开源，正是他推动AI真正进入企业机房的又一关键落子。

20岁写出Transformer的人，真开源了2180亿大模型

单卡运行的2180亿巨兽：Command A+震撼开源

从CC-BY-NC到Apache 2.0：一次彻底的松手

推理与追溯并重：原生引用让AI输出可问责

降本增效的三重账本：算力、速度与多语言

20岁天才的创业之路：从睡办公室到执掌独角兽

链接失效反馈