低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

Fable 5突遭全网下架,开发者急需替代方案

Anthropic 的旗舰模型 Claude Fable 5 发布后迅速成为焦点,但旋即因美国特朗普政府的禁令而全面下架,外国政府、企业及个人均无法访问。与此同时,Anthropic 内部还爆出“埋刀”争议和黑客破解事件,令依赖该模型的开发者陷入困境。高昂的 token 单价(两倍于 Opus 4.8)也让很多人望而却步。就在此时,AI 网关 OrcaRouter 上线了一套全新的可编程路由策略 Routing DSL,给出了一个低成本、高性能的替代方案。

OrcaRouter祭出多模型“组队”打法,自动仲裁找出最优解

OrcaRouter 的核心思路是:不依赖单一“最强”模型,而是让多个“常规”模型同时回答同一个问题,然后通过路由策略自动仲裁出最优答案。这套 Routing DSL 允许开发者自定义规则,例如:

  • 指定模型池:如 GPT-5.5、Qwen 3.7、GLM-5.2 等。
  • 仲裁逻辑:按投票结果、置信度评分或领域专长选择最佳输出。
  • 成本控制:动态切换模型组合,避免所有请求都走高价模型。

低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

这种“多模型组队”模式,本质上是将多个中等水平模型的能力汇聚成一股远超单模型的合力,类似“三个臭皮匠顶个诸葛亮”的 AI 版。

性能实测:组合模型竟反超Fable 5,而且成本更低

实测数据令人瞩目。通过 OrcaRouter 编排的模型组合,在长周期、高复杂度的工程交付任务中,性能不仅追平了 Fable 5,甚至在多项基准测试中实现了反超。例如,有用户用 Rio 3.5 397B(基于Qwen3.5-397B-A17B)与 GPT-5.5 等模型组队后,在编码任务上表现超越单一 Fable 5,而 token 成本仅为 Fable 5 的几分之一。这一结果得益于路由策略的自动择优——每次回答都会从多个模型的输出中挑选最精准的,避免了单一模型可能出现的“偏科”或“幻觉”。

一行代码原地复活,低成本方案即刻落地

OrcaRouter 的接入极其简单:开发者只需一行代码即可将现有的模型调用替换为多模型路由策略。例如:

from orca import Router
router = Router(strategy="best_of_n", models=["gpt-5.5", "qwen-3.7", "glm-5.2"])
response = router.query("写一段高效的Python代码排序")

路由会自动并行调用多个模型,并返回仲裁后的最佳答案。这意味着,哪怕 Fable 5 被禁,开发者也能立刻用现有的 API 构建出性能相当的 AI 服务。巴西里约市政府 IT 公司开源的 Rio 3.5 397B 等模型,与 OrcaRouter 结合后,更是进一步拉低了成本门槛。

不止于复刻:可编程路由开启模型组合新范式

OrcaRouter 的 Routing DSL 并非简单负载均衡,而是真正的“AI 裁判”。开发者可以编写高度自定义的仲裁规则,比如:

  • 针对代码任务优先选择编码能力更强的模型输出。
  • 针对长文本理解任务,要求模型先输出摘要再打分。
  • 根据实时延迟或预算动态调整模型池大小。

这种思路也呼应了行业趋势——Meta 正从“Tokenmaxxing”转向“Tokenminimizing”,而预算路由(如 BudgetMem)等概念也强调按需分配计算资源。OrcaRouter 的出现,让开发者不必再依赖单一“神级”模型,而是通过组合和路由,用更低成本获得更高性能。对于被 Fable 5 禁令困住的团队来说,这无疑是一条触手可及的出路。