微软“意外泄密”:Claude Mythos万亿参数,训练规模浮出水面?

微软内部文件“翻车”:Claude Mythos训练数据意外流出

这场“泄密”源于微软近期一份看似平常的内部演示幻灯片。在介绍Azure AI基础设施规划的部分,一张图表中赫然出现了“Claude Mythos”的名字,并直接标注了其训练所使用的算力数字:6.1×10²⁷ FLOPs。这一数值远超现有任何已公开模型(例如GPT-4据估测约为2×10²⁵ FLOPs),瞬间被科技媒体捕捉并广泛传播。微软对此保持沉默,但Anthropic方面也未否认,业内普遍认为这是一次对合作伙伴项目规划的“手滑”曝光。

微软“意外泄密”:Claude Mythos万亿参数,训练规模浮出水面?

6.1×10²⁷ FLOPs:万亿参数模型的“烧钱”账单

6.1×10²⁷ FLOPs是什么概念?按照当前顶尖AI训练芯片(如H100)的效率和电力成本估算,训练这样一个模型需要数千张H100连续运行数月,单次训练的电力成本可能高达数亿美元甚至更高。结合“万亿参数”的传闻,这样的算力消耗完全符合Scaling Law(规模定律)的预期——模型参数规模每提升一个数量级,所需算力呈指数级增长。Anthropic此前一直强调“安全”与“对齐”,但这份泄密数据表明,其在追求模型能力极限的“军备竞赛”中并未放慢脚步。

Anthropic的“另类”布局:万亿级模型早已上路

实际上,Anthropic内部早已透露其战略方向:将95%的业务分析、代码生成等核心任务交给Claude系列模型,秘诀不在于追求更强的单一模型,而是构建多模型协同的复杂系统。然而,微软泄密揭示的Claude Mythos显然属于“硬核”突破。业内分析,这一万亿参数模型很可能被用于处理Anthropic最前沿的“宏大场景”——例如长程推理、多模态融合,甚至是辅助安全研究的“元模型”。Anthropic的理念与砸巨资训练超大模型并不矛盾:只有拥有最强的基础模型,才能在其上更有效地实施安全控制。

云计算与AI巨头的“算力暗战”浮出水面

微软“意外”泄密的时机耐人寻味。当前,各大云厂商正激烈争夺前沿AI训练工作负载。微软Azure凭借对OpenAI的独家支持占据优势,而Anthropic则主要与谷歌云绑定。此次泄密,被部分分析师视为微软向市场展示其算力基础设施足以承载“下一代超巨型模型”的营销动作——哪怕客户是竞争对手的合作伙伴。更深层的影响在于,Claude Mythos的曝光意味着大模型参数从千亿迈向万亿的拐点已提前到来,而支持这种模型训练的千卡/万卡集群、液冷、电力配套,将推动整个算力产业链的再次升级。