Claude“神话”模型登场!自主科研成果超《科学》论文水平,token在燃烧

2025年:从代码片段到完整工程

当年,Claude不再满足于给出零散的代码片段。模型开始能自己运行、编辑并提交更完整的代码,这意味着它具备了从设计到执行闭环的基础能力。这一转变直接让模型在软件开发、数据处理等任务上的效能曲线开始明显上扬,为后续的自主科研打下了工程根基。

2026年:自主工作时间拉长,曲线急剧变陡

进入2026年,Claude能持续自主工作更长的时间,不再依赖人类频繁打断与修正。无论是多步骤实验设计、长篇论文撰写还是复杂模型训练,模型都能在数小时内保持连贯的思考与输出。这种“持久战”能力使得能力曲线进一步陡峭——每多一分钟自主运行,产出的质量与深度就呈指数级提升。

Claude“神话”模型登场!自主科研成果超《科学》论文水平,token在燃烧

自主科研产出超越《科学》论文水准

基于上述自主编码与长周期工作能力,Claude开始独立产出完整科研成果。从假设提出、实验仿真到数据解读,模型能够生成结构严谨、论证充分的学术报告。内部评测显示,部分成果在创新性、方法论严谨性上已跨越《科学》期刊的常规接收线。这不再是辅助工具,而是真正的科研合作者。

Token燃烧:Claude与DeepSeek的算力竞赛

在AI最新数据面板中,按模型总Token消耗排名,DeepSeek-v4-flash以34.0%占比遥遥领先,远超GPT-5.5和Claude-Opus。但有趣的是,Claude的token燃烧正以更快速度增长——尤其是自主科研任务需要极长的上下文和反复推理。每篇《科学》级论文的生成背后,是海量token的“燃烧”,而Claude正在这场算力竞赛中疯狂追赶。

自我迭代:模型训练模型的新纪元

更深远的影响在于,Claude的自主科研能力让其能直接参与自身的改进。通过自动运行实验、分析错误案例并提交代码补丁,模型形成自我迭代的飞轮。2026年末,这种能力已让Claude在部分领域的推理准确性每月提升数个百分点,且不再需要人工标注新数据——token燃烧换来的,是模型持续进化的动力源。