OpenAI推理之父掀桌：AI真·满血的样子，你没钱见

1 个月前

AI资讯

32 阅读

OpenAI AI推理排行榜计算成本

Noam Brown开炮：排行榜是“皇帝的新衣”

Noam Brown在文中毫不客气地指出，目前各大AI模型在排行榜上的亮眼表现，本质上只是“精心设计的表演”。他举例，许多模型在标准测试集上的高分是通过大量记忆和模式匹配实现的，而非真正的推理能力。Brown强调，OpenAI内部已经验证，只有当模型被允许进行“大规模推理计算”——即像人类一样分步骤思考、反复验证、甚至连贯地回溯时——才能展现出几乎完美的逻辑和创造力。但这样的计算量是当前主流评测的数十倍甚至数百倍，没有任何排行榜能够反映这一真相。

满血AI的惊人账单：吃钱的“深度思维”

文章中，Brown用图表展示了“满血推理”与“浅层推理”在复杂数学、科学和编程问题上的效果差距。他透露，OpenAI内部用来探索“满血”状态的模型，每次执行一个中等难度的逻辑推理任务，消耗的计算资源相当于运行数千次标准GPT-4o调用。按目前的算力成本，单次“满血推理”的云端费用可能高达数百美元。这意味着，即便是最顶尖的企业，也难以在日常场景中大规模部署这种级别的AI。Brown讽刺道：“你们看见的AI都是‘节食版’的，真正的‘满血’样子，只有OpenAI实验室里有，而且每次运行都像烧钞票一样。”

OpenAI推理之父掀桌：AI真·满血的样子，你没钱见

行业跟风只追“速效”，却忘了推理的本源

Brown的言论迅速引发行业震荡。他批评许多初创公司和学术团队盲目追逐LLM的“快消式”能力——文本生成、摘要、翻译等，却忽视了AI真正的价值在于“深度思考”。他指出，当前多数公开的推理增强方法（如思维链、自我一致性）只是小修小补，没有触及“大规模计算”这一核心。Brown警告，如果不从根本上改变评估和投入的思路，AI将永远停留在“看起来很聪明，但一碰到新问题就露怯”的阶段。他还特别点名一些宣称“超越o1”的模型，称其所谓的“推理”不过是在测试集上过拟合的结果。

“没钱见”背后的商业逻辑：OpenAI的算力霸权？

文章虽然没有明说，但外界普遍解读Noam Brown的言论是在为OpenAI未来推出的“满血版”o系列模型铺路——同时也是对竞争对手的“降维打击”：你们根本玩不起。据知情人士透露，OpenAI内部仅用于训练“满血推理”原型机就消耗了数十亿美元的算力。而要让用户每天都能调用这种级别的能力，无论是自建数据中心还是租用云GPU，都近乎天价。有分析师算了一笔账：若以“单次推理100美元”计算，一个中型企业一个月使用1万次推理，月成本就高达100万美元——这超出了绝大多数公司的AI预算。Brown的潜台词很清晰：真正的AI革命不是技术问题，而是一个彻底的经济学问题。

启示与未来：AI的“奢侈品化”不可避免？

面对Brown的尖锐批判，部分行业领袖表示赞同，认为AI行业确实需要从“堆数据、刷榜”转向“堆推理、增可靠性”。但也有人指出，大规模推理计算的高昂成本将导致AI能力进一步向少数科技巨头集中，加剧不平等。Brown在文章最后留了一个开放性问题：“当推理计算的成本降低1000倍时，我们才能讨论‘普惠AI’。但现在，请接受一个事实——满血AI，就是没钱见。” 业内推测，OpenAI或将在下半年推出按次计费、按推理深度分级收费的“豪华版”模型，而普通用户只能继续使用“节食版”。与此同时，阿里云等厂商推出的轻量级本地AI工具（如秒悟Meoo CLI）则试图在低算力场景下提供可接受的替代方案，但与“满血推理”的差距依然是鸿沟。

OpenAI推理之父掀桌：AI真·满血的样子，你没钱见

Noam Brown开炮：排行榜是“皇帝的新衣”

满血AI的惊人账单：吃钱的“深度思维”

行业跟风只追“速效”，却忘了推理的本源

“没钱见”背后的商业逻辑：OpenAI的算力霸权？

启示与未来：AI的“奢侈品化”不可避免？

链接失效反馈