美国医学会旗下期刊：现阶段 AI 难以直接应用于临床决策，早期诊断错误率达到 80%

1 个月前

AI资讯

14 阅读

大语言模型 [人工智能医疗临床诊断医学研究]

研究背景

近年来，人工智能在医疗领域的应用迅速扩展，生成式AI和大语言模型（LLM）被寄予厚望，期待其能够辅助甚至替代医生进行临床诊断。然而，临床推理是一个高度复杂的过程，涉及多阶段的信息整合、鉴别诊断、实验室检查判断以及治疗策略制定。2026年4月，美国麻省总医院MESH孵化器团队在《JAMA Network Open》上发表的研究对21种主流大语言模型进行了系统评估，揭示了其在临床推理中的关键缺陷。

诊断过程测试结果

研究团队选取了29个真实临床病例，模拟医生逐步获取信息的过程，包括症状、体征、实验室数据、影像学结果等。他们测试了包括ChatGPT、Claude、Gemini、DeepSeek和Grok在内的21种大语言模型的临床推理能力。

在早期阶段，即仅有基础症状和体征信息时，超过80%的模型未能提出合理的鉴别诊断，而这是临床推理中最关键的环节之一。只有在信息完备后，模型的整体诊断准确率才提升至90%以上。这表明AI更擅长“回答问题”而非“探索可能性”。

PrIME-LLM评估指标

为全面衡量LLM在医疗场景中的表现，研究团队提出了一种新的评估指标——PrIME-LLM（Probabilistic Inference and Model Evaluation for LLMs），从以下几个维度进行评分：

潜在诊断提出能力：AI能否列举出可能的疾病选项
检查手段选择合理性：能否推荐合适的实验室或影像检查
最终诊断准确性：在完整信息下是否能得出正确结论
治疗建议适配性：能否给出合理、循证的治疗建议

结果显示，各模型整体得分在64%至78%之间，早期诊断阶段的失误率高达80%，尤其是在需要系统性分析多个潜在病因的环节中，AI表现出显著不足。

研究结论与专家观点

研究负责人Arya Rao表示：“我们在每个模型上都观察到了失败。”即便新一代模型表现优于旧版本，但仍不足以胜任独立临床决策。Rao强调，AI目前更像是一个“高级搜索工具”，无法取代医生在不确定环境中进行逻辑推理的能力。

团队认为，现阶段AI应在医生监督下使用，作为辅助工具而非决策主体。麻省总医院医生Marc Succi指出，虽然AI在某些场景下可提高效率，但其缺乏对临床复杂性的全面理解，尤其是在早期诊断阶段容易出现严重偏差。

此外，研究还指出：

AI在遵循标准诊断指南方面存在遗漏
常常忽略患者的关键体检信息
对实验室检查的安排缺乏一致性
解读检验结果的能力仍有待提升

对医疗AI未来的影响

尽管AI在医疗领域的早期诊断能力尚不成熟，但其潜力仍不可忽视。OpenEvidence等专精型医疗AI已在执业医师考试中取得满分，表明特定领域模型的精准度可以被优化至极高水准。

相比之下，通用型AI模型在医疗推理中的可靠性仍然较低。研究团队建议：

医疗AI的发展应聚焦于“临床辅助”，而非“替代医生”
建议采用垂直领域训练、权威数据源、证据溯源机制来提升可靠性
产品设计应围绕医生真实工作流程，提升场景可用性

当前AI在医疗领域的应用更多集中于文献总结、诊疗标准工具、出院指导和病历文档化等方面。随着模型迭代和临床数据的积累，AI有望在未来几年逐步提升其在临床推理中的准确性，但现阶段尚不具备直接参与临床决策的条件。