超越Claude Mythos的AI模型，诞生了？

1 天前

AI资讯

14 阅读

AI模型 claude 基准测试 Mythos Fugu

横空出世的“Fugu”：直接叫板Claude神话

就在业界对Anthropic突然消失的Claude Fable 5和严格受控的Claude Mythos Preview议论纷纷时，Sakana AI抛出了重磅炸弹。其最新模型Fugu在官方声明中明确将“无需承担出口管制风险的前沿能力”作为核心卖点，矛头直指那些因安全或政治原因被限制开放的模型。它的表现相当惊人：在科学推理方面，Fugu模型甚至超过了Mythos Preview和Fable 5；在智能体编程和软件工程领域，其旗舰版本Fugu-Ultra在SWE Bench Pro和Terminal Bench 2.1两个基准测试上，均达到了当前最优水平，实现了大幅跃升。

避管控的“王牌”：可自由切换的智能体池

Fugu之所以能打出“不怕出口管制”这张牌，并非因为它在单一模型上拥有某种魔法，而是因为它背后编排着一整套可自由切换的AI智能体池。当碰到单一供应商限制，比如某个前沿模型被禁运或防火墙阻隔时，系统能自动绕道，切换到另一个可用的模型继续运行。这种设计极大提升了系统的韧性与自主性，使得Sakana能够合法地调用全球范围内可获取的各种先进模型，集结出超越任何单一受管制模型的综合能力。这被外界解读为对Anthropic等公司“安全至上、封闭发布”战略的公然嘲讽。

超越Claude Mythos的AI模型，诞生了？

“编排模型”时代降临：比谁把模型“组”得更好

Fugu的诞生揭示了一个新趋势：未来不是比谁的模型更大，而是看谁能把全球的模型“编排”得更好、更稳、更自主。Sakana AI提出的“调度模型”概念宣告了Orchestration Models时代的到来。单一模型的智能上限依旧重要，Scaling Law依旧重要，但通过智能调度实现多模型协同作战，成为了更现实的突破路径。为了补充整体基准测试，Sakana将Fugu分别与匿名化为模型A、模型B和模型C的Gemini 3.1 Pro、Opus 4.8和GPT 5.5进行对比，在众多单步任务（编程、数学、推理、语言理解及多种智能体使用场景）中表现出色。

Conductor：强化学习训练出的“交响乐指挥”

支撑Fugu高效协同的核心是名为Conductor的组件。它不是简单的路由工具，而是利用强化学习训练出来的智能指挥。Conductor能自己摸索出如何用自然语言来协调不同模型之间的配合，包括安排它们之间的交流顺序，并为每个子任务设计更精准的提示词。这意味着，多个大模型在Conductor的调度下“一起干活”，就像一支配合默契的交响乐团，远比单独使用任何一个模型更擅长处理高难度的推理题目，同时也能够处理长周期研究、程序合成、CAD生成等高要求工作。

安全悖论与未来博弈：网络攻击能力的“普及化”

Fugu的出现，与Claude Mythos被严格限制的背景形成了鲜明对比。Anthropic通过Project Glasswing联盟（仅限约40家科技公司，包括Google、苹果、微软等）发布Claude Mythos Preview，原因在于该模型能轻松找出全球主流系统中的高严重性漏洞，甚至已在所有主流操作系统和网络浏览器中发现关键漏洞。前微软研究主管Craig Mundie警告，这种能力将使网络攻击手段“普及化”，落入犯罪集团甚至恐怖组织手中。Sakana AI则通过Fugu展示了一种新的解决思路：与其将强大的网络能力私有化或封闭化，不如通过智能编排构建一个更开放、更稳定且更难被单一力量垄断的AI生态。这场关于“控制”与“编排”的博弈，正重新定义AI领域的权力格局。

超越Claude Mythos的AI模型，诞生了？

横空出世的“Fugu”：直接叫板Claude神话

避管控的“王牌”：可自由切换的智能体池

“编排模型”时代降临：比谁把模型“组”得更好

Conductor：强化学习训练出的“交响乐指挥”

安全悖论与未来博弈：网络攻击能力的“普及化”

链接失效反馈