俩小时就烧掉400块Token后,我终于看懂Claude Fable 5有多猛
两小时烧掉400块?Token账单背后的“贵狠准”
Fable 5的定价令人肉疼:每百万Token高达38.66美元,是Opus 4.8的3倍、GPT-5.5的8倍。一位用户仅仅运行一个复杂推理任务,就烧光了200多块钱的Thinking Token,外加动手测试时短短两小时内又烧掉400块——官方给出的参考价是“体验一次高难度任务≈吃顿黑珍珠餐厅”。但贵得有道理:当你让它自主规划从东京到伦敦的跨国路线时,它没问你要Prompt吐司机,而是自己启动了多个代理,抓取了2200多个航班信息、新干线等铁路数据以及各国道路限速,然后埋头干了9个多小时,输出了一套完整的多模态交通方案。这意味着什么?以前你雇的是临时工,现在你花几美金Token就直接雇了整个设计院——唯一的问题是,这个设计院是按秒计费的。
软件工程:从“修Bug小工”到“全自动搬砖大军”
Fable 5在SWE-bench Pro上飙出80.3%的高分,直接把GPT-5.5的58.6%甩开一个身位。更夸张的是,它在一份5000万行的Ruby代码库中完成了全库迁移——这个活要是让人类工程团队干,得加班两个多月。在ViBench(Vibe-coding基准)上,Fable 5几乎把基础开发用例打到了“一枪流”饱和状态:你给一个模糊提示,它直接生成完整可用的应用。而最震撼的案例来自Cognition的Frontier Code评测:即便只开“中等努力”模式,Fable 5的得分也高居所有前沿模型之首——也就是说,它用一半的算力烧出了全栈顶尖成绩。从修Bug到搬仓库再到写应用,Fable 5已经不再需要你手把手教它改代码,你只需告诉它“做出来”,然后等着收作业。

盲打通关《宝可梦》:不用外挂的“原生视觉”黑科技
以前想让AI玩《宝可梦·火红版》,必须在外面搭一套复杂的“脚手架”:地图导航、内存状态读取、键鼠模拟器……Fable 5却直接扔掉了所有外挂。它仅凭一张张原始的游戏屏幕截图,在没有任何地图辅助的前提下,自主推理、规划路线、打野生怪、跟NPC对话——硬生生把整部游戏打通关。在GDPpdf视觉推理基准上,Fable 5拿到29.8%的得分,碾压Opus 4.8(22.5%)和GPT-5.5(24.9%)。更狠的是持久化记忆带来的爆发:当给它接入文件级记忆后,它在卡牌肉鸽游戏《杀戮尖塔》里的表现直接飙升3倍,到达最终章节的概率也暴涨3倍。以前你看着屏幕发呆,Fable 5看着屏幕推演全局——没有脚手架,就没有失忆症。
长上下文+持久记忆:让AI告别“大型失忆现场”
Fable 5的核心不是单轮问答更漂亮,而是能接住长周期任务。官方拿《杀戮尖塔》反复验证:加上文件级持久记忆后,Fable 5的表现提升幅度是Opus 4.8的三倍。一个能干长活儿的AI必须记得自己做过什么、错过什么、下一步为什么这么干——记忆就是它的“工作簿”。在金融与法律领域,IMC和Optiver等量化交易大厂实测显示,Fable 5几乎拿满了交易分析评估的全部权重,并在多次重复运行中输出一模一样的分数,展现出惊人的稳定性。Fable 5成为行业内第一个在核心分析基准(覆盖复杂、长周期分析任务)中突破90%得分大关的模型,比Opus整整高出10个百分点。在最刁钻的提问里,它表现出了人类专家级别的微观评判力——而且从不忘记前一秒算过的数字。
满血Mythos 5:AI独自训练出击败《Science》的100倍小模型
Fable 5只是Mythos 5的“公众版”,而满血Mythos 5已经在生命科学和物理学上搞出了降维打击。在生物医药领域,Mythos 5完全没有人协助,独立执行了完整生物学家工作流:选择蛋白质结合位点、调度生物信息学工具、遇到失败自己Debug。它提出的大肠杆菌蛋白新机制,随后被独立实验室在《A newly identified detoxification system…》中验证。更恐怖的是基因组学研究:Mythos 5自主工作了一周多,拼凑了138个物种的单细胞数据,然后自己设计、训练了一个微型机器学习模型——这个比《Science》最新成果体积小100倍的模型,性能却直接碾压了那篇论文。在物理学上,Fable 5只用了1/3的推理Token,36小时就逼近了GPT-5.5耗时4天跑出的成果。Anthropic官方说,Mythos 5是“第一个能持续产生新颖且引人注目的科学假设的模型”。当AI开始自己发论文、自己设计实验、自己训练出击败人类成果的模型时,你付费的不再是工具,而是一个随时可能拿到诺贝尔奖的“第三作者”。