AI催生生物医学科研危机?顶尖科学家差点被AI假文献蒙骗,每经独家对话亲历者、《柳叶刀》文章作者Maxim Topaz
顶尖AI专家也中了招:一次润色引发的“引文惊魂”
哥伦比亚大学护理学院副教授、全球前2%顶尖科学家Maxim Topaz,自嘲是“最不该被骗的人”。他常年和人工智能打交道,却在一篇拟投期刊的评论润色中,被AI聊天工具悄悄植入了一条虚假文献。即便他特意核对了所有引文,也未能发现这个“幻觉”。最终,是期刊编辑的质疑才让他如梦初醒。
“比起失误本身,更值得警惕的是背后的隐患:连常年和人工智能打交道的专业人士都会中招,普通研究者自然也难以幸免。”这次经历直接促使Topaz团队启动了迄今为止最大规模的生物医学引文造假调查。他们统计了美国国立医学图书馆PubMed Central中约250万篇论文、超过1.25亿条参考文献,最终得出了令人震惊的结论:虚假引文已从个别品行问题演变为系统性危机。
每万篇论文56.9条假引文:造假率三年蹿升12倍
Topaz团队基于对PubMed Central(美国网上医学文献检索系统)收录的约250万篇生物医学论文的筛查发现,过去几年生物医学论文参考文献造假率涨幅超12倍。2023年每万篇论文约出现4条伪造参考文献,到2026年初已达到每万篇56.9条。更为严峻的是,当核查进行时,98.4%存在造假引文的论文既未被更正也未被撤稿。

“业内过往认知与现实情况相差极大。此前,大家普遍认为引文造假只是个别作者品行不端,或是写作疏忽导致的小众问题。”Topaz对《每日经济新闻》记者表示,“但数据显示,虚假引文如今已遍布各类生物医学文献;自2023年至今,引文造假率涨幅超12倍。”
时间节点极具指向性:大型语言模型在2022年末至2023年开始全面普及,而生物医学论文从投稿到发表通常需要100至200天。因此,借助AI辅助撰写或由论文代写产业链产出的论文,从2024年年中起开始大量涌入数据库,恰好与造假率骤增的转折点吻合。
综述论文沦为“造假重灾区”,正在误导医生和政策制定者
在所有论文类型中,综述论文受害最深。数据显示,综述论文每万篇的引文造假数为16.7条,其他类型论文为10.6条,高出57%。这并非偶然:综述的参考文献列表篇幅更长,虚假引文更容易混入;同时,撰写综述需要梳理海量文献,正是研究者最常借助AI辅助的环节,而AI恰恰极易在此场景下编造看似专业的假引文。
Topaz强调,综述处于整个科研证据链的上游:各类系统评价依托综述撰写,临床诊疗指南又以系统评价为依据。“综述中的造假内容不会止步于此,还会层层传导,最终影响临床医生和政策制定者依赖的核心证据体系。”目前已有一份系统评价发现,医学论文中约四分之一的参考文献存在各类错误,而常规同行评审几乎不核验引文真伪。当AI生成的假引文格式规范、作者署名真实、主题贴合,常规审核更难以识破。
最极端的案例出现在2025年:某开放获取肿瘤学期刊上一份聚焦细分外科领域的论文,经核验的30条参考文献中有18条为造假内容。另一本期刊一年内刊发的11篇论文中,反复出现两位相同署名作者,这些论文共包含15条虚假引文,涉及多个互不相关的前沿研究领域。“比起单篇问题论文,我更担忧这类批量造假的现象。”Topaz说。
紧迫行动:四重建议背后的阻力与博弈
为应对危机,Topaz团队提出了四项改进建议。其中最紧迫的一条是:期刊出版商需在同行评审启动前,将自动化引文核验纳入论文投稿流程。“目前相关技术已经成熟,落地障碍并非技术问题,而是体制与成本问题。出版商需要投入资金、调整沿用已久的工作流程。”Topaz坦言。
而落地难度最大的,是对已发表文献开展回溯清理。“对数百万篇存量论文逐一筛查、发布更正内容,需要高昂成本;且没有任何一家机构愿意全权负责这项工作,同时学界也缺乏动力去复盘、修正已经刊发的论文。”
恶性循环已现:文献库污染恐将不可逆转
“我最大的担忧是形成恶性循环。”Topaz对未来3至5年深表忧虑,“一篇含虚假引文的论文发表后,会被后续新论文继续引用,甚至被用于训练新一代人工智能模型,进而让造假内容不断传播、放大。若不及时管控,文献库被污染的速度会远远超过清理修复的速度。”
他反复强调,问题的根源并非AI工具本身,而是“未经核查的人工智能生成内容流入永久学术文献”。人类并非要禁用AI,而是必须把核验环节嵌入整个工作流程。“人工智能本身并非隐患,真正的风险是任由未经审核的人工智能产出内容,并堂而皇之地进入学术体系。”