微软“意外泄密”：Claude Mythos万亿参数，训练规模浮出水面？

1 个月前

AI资讯

57 阅读

微软 claude Mythos 泄密万亿参数

微软内部文件“翻车”：Claude Mythos训练数据意外流出

这场“泄密”源于微软近期一份看似平常的内部演示幻灯片。在介绍Azure AI基础设施规划的部分，一张图表中赫然出现了“Claude Mythos”的名字，并直接标注了其训练所使用的算力数字：6.1×10²⁷ FLOPs。这一数值远超现有任何已公开模型（例如GPT-4据估测约为2×10²⁵ FLOPs），瞬间被科技媒体捕捉并广泛传播。微软对此保持沉默，但Anthropic方面也未否认，业内普遍认为这是一次对合作伙伴项目规划的“手滑”曝光。

微软“意外泄密”：Claude Mythos万亿参数，训练规模浮出水面？

6.1×10²⁷ FLOPs：万亿参数模型的“烧钱”账单

6.1×10²⁷ FLOPs是什么概念？按照当前顶尖AI训练芯片（如H100）的效率和电力成本估算，训练这样一个模型需要数千张H100连续运行数月，单次训练的电力成本可能高达数亿美元甚至更高。结合“万亿参数”的传闻，这样的算力消耗完全符合Scaling Law（规模定律）的预期——模型参数规模每提升一个数量级，所需算力呈指数级增长。Anthropic此前一直强调“安全”与“对齐”，但这份泄密数据表明，其在追求模型能力极限的“军备竞赛”中并未放慢脚步。

Anthropic的“另类”布局：万亿级模型早已上路

实际上，Anthropic内部早已透露其战略方向：将95%的业务分析、代码生成等核心任务交给Claude系列模型，秘诀不在于追求更强的单一模型，而是构建多模型协同的复杂系统。然而，微软泄密揭示的Claude Mythos显然属于“硬核”突破。业内分析，这一万亿参数模型很可能被用于处理Anthropic最前沿的“宏大场景”——例如长程推理、多模态融合，甚至是辅助安全研究的“元模型”。Anthropic的理念与砸巨资训练超大模型并不矛盾：只有拥有最强的基础模型，才能在其上更有效地实施安全控制。

云计算与AI巨头的“算力暗战”浮出水面

微软“意外”泄密的时机耐人寻味。当前，各大云厂商正激烈争夺前沿AI训练工作负载。微软Azure凭借对OpenAI的独家支持占据优势，而Anthropic则主要与谷歌云绑定。此次泄密，被部分分析师视为微软向市场展示其算力基础设施足以承载“下一代超巨型模型”的营销动作——哪怕客户是竞争对手的合作伙伴。更深层的影响在于，Claude Mythos的曝光意味着大模型参数从千亿迈向万亿的拐点已提前到来，而支持这种模型训练的千卡/万卡集群、液冷、电力配套，将推动整个算力产业链的再次升级。

微软“意外泄密”：Claude Mythos万亿参数，训练规模浮出水面？

微软内部文件“翻车”：Claude Mythos训练数据意外流出

6.1×10²⁷ FLOPs：万亿参数模型的“烧钱”账单

Anthropic的“另类”布局：万亿级模型早已上路

云计算与AI巨头的“算力暗战”浮出水面

链接失效反馈