Claude把病毒起源算错90年，都是网页惹的祸？

1 个月前

AI资讯

21 阅读

AI错误病毒起源科研智能体埃博拉

同题三答相差数十倍，病毒起源时间凭空多出90年

Anthropic在最新博客中揭示了一个令人头皮发麻的实验：让Claude Sonnet 4、GPT、Biomni等顶级科研智能体执行一项看似简单的任务——从NCBI Virus数据库准确数出符合条件的埃博拉病毒序列数量。结果令人大跌眼镜：同一段提示词，Claude Sonnet 4第一次返回106条，第二次15条，第三次仅5条，而人工精校的正确答案是266条。更致命的是，研究者让Sonnet 4用这三套数据分别构建系统发育树，推算“最近共同祖先时间”（TMRCA），两套残缺数据中，一套将埃博拉疫情起源时间从2014年回拨到了1922年，另一套则漏掉了几内亚的关键序列，把起源悄悄挪到2014年4月。一次数据“数错”，整整改写了一场致命疫情的溯源时间线。

Claude把病毒起源算错90年，都是网页惹的祸？

科学数据库：一座为马车设计的老城，机器根本开不进去

问题的根源不在AI不够聪明，而在于科学数据库的底层架构。NCBI Virus本质上是一个网页门户——你要勾选“宿主是人类”“采样地在非洲”“排除实验室传代样本”等条件，网站后台才把勾选翻译成对GenBank、RefSeq等底层数据库的查询。对于人类病毒学家，这只是浏览器里点几下的事；但对于智能体，它只能调用底层原始API（REST、Datasets、E-utilities），而这些API并不暴露和网页一模一样的过滤语义。“采样地在非洲”背后可能要对几十个国家的元数据字段对齐，“含表面糖蛋白”则需要拉取每条记录的基因注释。智能体每次都要自己“猜”着重建过滤逻辑，拼漏了少数，拼错了多数，于是同一问题三答的结果可以差出90年。正如文章中所形容：科学数据基础设施是一座为马车设计的优雅老城，智能体却是一辆汽车——街道窄窄的，全程没有标准化信号灯。

gget virus：给AI装上一个“确定性导航仪”

为了根治这一问题，研究者推出了gget virus——一个专为智能体打造的确定性检索层。它不是又一个花哨的AI插件，而是把网页界面里那套隐藏的过滤行为，重新实现为可复现的程序化系统。技术上，它统筹REST、Datasets、E-utilities几个底层系统，自动判断哪些过滤能走API、哪些得本地校验，处理批量取数防止中途截断，并输出FASTA、CSV、JSONL等格式。对高频查询，它能把数据传输量压缩超过98%。接入gget virus后，所有被测系统的检索准确率全部冲上90%以上，GPT-5.5飙到99.7%，运行间的随机抖动几乎消失，稳定性升到0.92-1.00。更戏剧性的是，在360次运行测试中，GPT-5.5曾在没有任何提示的情况下自己找到并调用了gget virus——而那一次，是它在那道题上唯一答对的时刻。

启示：AI时代的数据基础设施需要从“为人设计”转向“为机器设计”

这场不算大的实验，折射出整个科学领域的系统性摩擦。Karpathy在吐槽AI时代的软件开发时感叹：“写代码是最简单的部分”——部署登录、支付等环节时，所有配置文档全是“点这里、填那里”，LLM根本无法直接调用。同样的痛感发生在生物医学、气象、金融等每一个“为人类而非为智能体设计”的数据环境里。有人会问：模型进步这么快，未来智能体难道不能自己穿越混乱门户吗？答案是：即使能，成本、速度和可审计性也可能让日常科研不堪重负。更务实的教训是：从现在起，就得把智能体当成规模化用户，让基因标识符、数据schema、检索逻辑、坐标系统这些底层基础设施变得“无聊”而绝对可靠。模型可以在生成假设时天马行空，但它脚下踩的那层数据地板，必须像高速公路一样平整、标线清晰、永不晃动。

Claude把病毒起源算错90年，都是网页惹的祸？

同题三答相差数十倍，病毒起源时间凭空多出90年

科学数据库：一座为马车设计的老城，机器根本开不进去

gget virus：给AI装上一个“确定性导航仪”

启示：AI时代的数据基础设施需要从“为人设计”转向“为机器设计”

链接失效反馈