美国医学会旗下期刊:现阶段 AI 难以直接应用于临床决策,早期诊断错误率达到 80%
研究背景
近年来,人工智能在医疗领域的应用迅速扩展,生成式AI和大语言模型(LLM)被寄予厚望,期待其能够辅助甚至替代医生进行临床诊断。然而,临床推理是一个高度复杂的过程,涉及多阶段的信息整合、鉴别诊断、实验室检查判断以及治疗策略制定。2026年4月,美国麻省总医院MESH孵化器团队在《JAMA Network Open》上发表的研究对21种主流大语言模型进行了系统评估,揭示了其在临床推理中的关键缺陷。
诊断过程测试结果
研究团队选取了29个真实临床病例,模拟医生逐步获取信息的过程,包括症状、体征、实验室数据、影像学结果等。他们测试了包括ChatGPT、Claude、Gemini、DeepSeek和Grok在内的21种大语言模型的临床推理能力。
在早期阶段,即仅有基础症状和体征信息时,超过80%的模型未能提出合理的鉴别诊断,而这是临床推理中最关键的环节之一。只有在信息完备后,模型的整体诊断准确率才提升至90%以上。这表明AI更擅长“回答问题”而非“探索可能性”。
PrIME-LLM评估指标
为全面衡量LLM在医疗场景中的表现,研究团队提出了一种新的评估指标——PrIME-LLM(Probabilistic Inference and Model Evaluation for LLMs),从以下几个维度进行评分:
- 潜在诊断提出能力:AI能否列举出可能的疾病选项
- 检查手段选择合理性:能否推荐合适的实验室或影像检查
- 最终诊断准确性:在完整信息下是否能得出正确结论
- 治疗建议适配性:能否给出合理、循证的治疗建议
结果显示,各模型整体得分在64%至78%之间,早期诊断阶段的失误率高达80%,尤其是在需要系统性分析多个潜在病因的环节中,AI表现出显著不足。
研究结论与专家观点
研究负责人Arya Rao表示:“我们在每个模型上都观察到了失败。”即便新一代模型表现优于旧版本,但仍不足以胜任独立临床决策。Rao强调,AI目前更像是一个“高级搜索工具”,无法取代医生在不确定环境中进行逻辑推理的能力。
团队认为,现阶段AI应在医生监督下使用,作为辅助工具而非决策主体。麻省总医院医生Marc Succi指出,虽然AI在某些场景下可提高效率,但其缺乏对临床复杂性的全面理解,尤其是在早期诊断阶段容易出现严重偏差。
此外,研究还指出:
- AI在遵循标准诊断指南方面存在遗漏
- 常常忽略患者的关键体检信息
- 对实验室检查的安排缺乏一致性
- 解读检验结果的能力仍有待提升
对医疗AI未来的影响
尽管AI在医疗领域的早期诊断能力尚不成熟,但其潜力仍不可忽视。OpenEvidence等专精型医疗AI已在执业医师考试中取得满分,表明特定领域模型的精准度可以被优化至极高水准。
相比之下,通用型AI模型在医疗推理中的可靠性仍然较低。研究团队建议:
- 医疗AI的发展应聚焦于“临床辅助”,而非“替代医生”
- 建议采用垂直领域训练、权威数据源、证据溯源机制来提升可靠性
- 产品设计应围绕医生真实工作流程,提升场景可用性
当前AI在医疗领域的应用更多集中于文献总结、诊疗标准工具、出院指导和病历文档化等方面。随着模型迭代和临床数据的积累,AI有望在未来几年逐步提升其在临床推理中的准确性,但现阶段尚不具备直接参与临床决策的条件。