研究发现,ChatGPT错误诊断了超过80%的儿科病例

发布号 2 2025-09-26 06:40:11

e="text-indent: 2em;">

在一项关于人工智能在儿科病例诊断中的应用的新研究中,流行的人工智能(AI)聊天机器人ChatGPT的诊断错误率超过80%。

本周发表在《美国医学会儿科学》(JAMA Pediatrics)上的这项研究,将《美国医学会杂志》(JAMA)和《新英格兰医学杂志》(New England Journal of Medicine)上发现的100例挑战的文本输入到ChatGPT 3.5版中。然后给聊天机器人提示:“列出一个鉴别诊断和最终诊断。”

这些儿科病例都是过去10年的。

ChatGPT诊断的准确性取决于它们是否与医生的诊断一致。两名内科研究人员将诊断分为正确、不正确或“没有完全捕捉到诊断”。

总体而言,人工智能生成的诊断中有83%被发现是错误的,72%是不正确的,11%是“与临床相关但过于宽泛而不能被视为正确的诊断”。

尽管研究人员发现的诊断错误率很高,但该研究建议继续调查医生使用大型语言模型的情况,并指出它可以作为一种管理工具。

“在这项研究中评估的聊天机器人——不像医生——不能识别一些关系,比如自闭症和维生素缺乏之间的关系。为了提高生成式人工智能聊天机器人的诊断准确性,可能需要更多的选择性训练,”研究称。

该研究还指出,ChatGPT的可用知识没有定期更新,这意味着它无法获得新的研究、健康趋势、诊断标准或疾病爆发。

医生和研究人员越来越多地研究将人工智能和语言模型纳入医疗工作的方法。去年发表的一项研究发现,OpenAI的GPT-4能够比临床医生更好地为65岁以上的患者提供准确的诊断。然而,这项研究只有6名患者的样本量。

在这项早期研究中,研究人员指出,聊天机器人可能会被用来“提高诊断的信心”。

使用人工智能诊断并不是一个新概念。美国食品和药物管理局(Food and Drug Administration)已经批准了数百种支持人工智能的医疗设备,不过到目前为止,还没有一种使用生成式人工智能或由ChatGPT等大型语言模型驱动的设备获得批准。

上一篇:退伍军人事务部表示,他们看到的病人比以往任何时候都多,并缩短了等待时间
下一篇:美国航空公司的一名乘客猛烈抨击人们靠椅背坐
相关文章

 发表评论

暂时没有评论,来抢沙发吧~