OpenAI推理之父掀桌:AI真·满血的样子,你没钱见
Noam Brown开炮:排行榜是“皇帝的新衣”
Noam Brown在文中毫不客气地指出,目前各大AI模型在排行榜上的亮眼表现,本质上只是“精心设计的表演”。他举例,许多模型在标准测试集上的高分是通过大量记忆和模式匹配实现的,而非真正的推理能力。Brown强调,OpenAI内部已经验证,只有当模型被允许进行“大规模推理计算”——即像人类一样分步骤思考、反复验证、甚至连贯地回溯时——才能展现出几乎完美的逻辑和创造力。但这样的计算量是当前主流评测的数十倍甚至数百倍,没有任何排行榜能够反映这一真相。
满血AI的惊人账单:吃钱的“深度思维”
文章中,Brown用图表展示了“满血推理”与“浅层推理”在复杂数学、科学和编程问题上的效果差距。他透露,OpenAI内部用来探索“满血”状态的模型,每次执行一个中等难度的逻辑推理任务,消耗的计算资源相当于运行数千次标准GPT-4o调用。按目前的算力成本,单次“满血推理”的云端费用可能高达数百美元。这意味着,即便是最顶尖的企业,也难以在日常场景中大规模部署这种级别的AI。Brown讽刺道:“你们看见的AI都是‘节食版’的,真正的‘满血’样子,只有OpenAI实验室里有,而且每次运行都像烧钞票一样。”

行业跟风只追“速效”,却忘了推理的本源
Brown的言论迅速引发行业震荡。他批评许多初创公司和学术团队盲目追逐LLM的“快消式”能力——文本生成、摘要、翻译等,却忽视了AI真正的价值在于“深度思考”。他指出,当前多数公开的推理增强方法(如思维链、自我一致性)只是小修小补,没有触及“大规模计算”这一核心。Brown警告,如果不从根本上改变评估和投入的思路,AI将永远停留在“看起来很聪明,但一碰到新问题就露怯”的阶段。他还特别点名一些宣称“超越o1”的模型,称其所谓的“推理”不过是在测试集上过拟合的结果。
“没钱见”背后的商业逻辑:OpenAI的算力霸权?
文章虽然没有明说,但外界普遍解读Noam Brown的言论是在为OpenAI未来推出的“满血版”o系列模型铺路——同时也是对竞争对手的“降维打击”:你们根本玩不起。据知情人士透露,OpenAI内部仅用于训练“满血推理”原型机就消耗了数十亿美元的算力。而要让用户每天都能调用这种级别的能力,无论是自建数据中心还是租用云GPU,都近乎天价。有分析师算了一笔账:若以“单次推理100美元”计算,一个中型企业一个月使用1万次推理,月成本就高达100万美元——这超出了绝大多数公司的AI预算。Brown的潜台词很清晰:真正的AI革命不是技术问题,而是一个彻底的经济学问题。
启示与未来:AI的“奢侈品化”不可避免?
面对Brown的尖锐批判,部分行业领袖表示赞同,认为AI行业确实需要从“堆数据、刷榜”转向“堆推理、增可靠性”。但也有人指出,大规模推理计算的高昂成本将导致AI能力进一步向少数科技巨头集中,加剧不平等。Brown在文章最后留了一个开放性问题:“当推理计算的成本降低1000倍时,我们才能讨论‘普惠AI’。但现在,请接受一个事实——满血AI,就是没钱见。” 业内推测,OpenAI或将在下半年推出按次计费、按推理深度分级收费的“豪华版”模型,而普通用户只能继续使用“节食版”。与此同时,阿里云等厂商推出的轻量级本地AI工具(如秒悟Meoo CLI)则试图在低算力场景下提供可接受的替代方案,但与“满血推理”的差距依然是鸿沟。