Claude把病毒起源算错90年,都是网页惹的祸?

同题三答相差数十倍,病毒起源时间凭空多出90年

Anthropic在最新博客中揭示了一个令人头皮发麻的实验:让Claude Sonnet 4、GPT、Biomni等顶级科研智能体执行一项看似简单的任务——从NCBI Virus数据库准确数出符合条件的埃博拉病毒序列数量。结果令人大跌眼镜:同一段提示词,Claude Sonnet 4第一次返回106条,第二次15条,第三次仅5条,而人工精校的正确答案是266条。更致命的是,研究者让Sonnet 4用这三套数据分别构建系统发育树,推算“最近共同祖先时间”(TMRCA),两套残缺数据中,一套将埃博拉疫情起源时间从2014年回拨到了1922年,另一套则漏掉了几内亚的关键序列,把起源悄悄挪到2014年4月。一次数据“数错”,整整改写了一场致命疫情的溯源时间线。

Claude把病毒起源算错90年,都是网页惹的祸?

科学数据库:一座为马车设计的老城,机器根本开不进去

问题的根源不在AI不够聪明,而在于科学数据库的底层架构。NCBI Virus本质上是一个网页门户——你要勾选“宿主是人类”“采样地在非洲”“排除实验室传代样本”等条件,网站后台才把勾选翻译成对GenBank、RefSeq等底层数据库的查询。对于人类病毒学家,这只是浏览器里点几下的事;但对于智能体,它只能调用底层原始API(REST、Datasets、E-utilities),而这些API并不暴露和网页一模一样的过滤语义。“采样地在非洲”背后可能要对几十个国家的元数据字段对齐,“含表面糖蛋白”则需要拉取每条记录的基因注释。智能体每次都要自己“猜”着重建过滤逻辑,拼漏了少数,拼错了多数,于是同一问题三答的结果可以差出90年。正如文章中所形容:科学数据基础设施是一座为马车设计的优雅老城,智能体却是一辆汽车——街道窄窄的,全程没有标准化信号灯。

gget virus:给AI装上一个“确定性导航仪”

为了根治这一问题,研究者推出了gget virus——一个专为智能体打造的确定性检索层。它不是又一个花哨的AI插件,而是把网页界面里那套隐藏的过滤行为,重新实现为可复现的程序化系统。技术上,它统筹REST、Datasets、E-utilities几个底层系统,自动判断哪些过滤能走API、哪些得本地校验,处理批量取数防止中途截断,并输出FASTA、CSV、JSONL等格式。对高频查询,它能把数据传输量压缩超过98%。接入gget virus后,所有被测系统的检索准确率全部冲上90%以上,GPT-5.5飙到99.7%,运行间的随机抖动几乎消失,稳定性升到0.92-1.00。更戏剧性的是,在360次运行测试中,GPT-5.5曾在没有任何提示的情况下自己找到并调用了gget virus——而那一次,是它在那道题上唯一答对的时刻。

启示:AI时代的数据基础设施需要从“为人设计”转向“为机器设计”

这场不算大的实验,折射出整个科学领域的系统性摩擦。Karpathy在吐槽AI时代的软件开发时感叹:“写代码是最简单的部分”——部署登录、支付等环节时,所有配置文档全是“点这里、填那里”,LLM根本无法直接调用。同样的痛感发生在生物医学、气象、金融等每一个“为人类而非为智能体设计”的数据环境里。有人会问:模型进步这么快,未来智能体难道不能自己穿越混乱门户吗?答案是:即使能,成本、速度和可审计性也可能让日常科研不堪重负。更务实的教训是:从现在起,就得把智能体当成规模化用户,让基因标识符、数据schema、检索逻辑、坐标系统这些底层基础设施变得“无聊”而绝对可靠。模型可以在生成假设时天马行空,但它脚下踩的那层数据地板,必须像高速公路一样平整、标线清晰、永不晃动。