Power Reads

AI医生的困境:为什么ChatGPT在处理医疗急症时仍然面临挑战

《自然》杂志的一项新研究警告称,ChatGPT低估了50%的医疗急症。了解为什么人工智能尚未准备好取代专业的紧急护理建议。
Linda Zola
Linda Zola
2026年3月6日
AI医生的困境:为什么ChatGPT在处理医疗急症时仍然面临挑战

每周有超过2.3亿人向ChatGPT寻求答案。他们咨询的问题涵盖了从编程漏洞到晚餐菜谱的方方面面,但越来越多的人开始咨询健康问题。根据OpenAI的数据,用户正在通过它检查食物是否安全、管理慢性过敏,或者寻找缓解顽固感冒的方法。

然而,发表在《自然》(Nature)杂志上的一项新研究表明,虽然ChatGPT是一个出色的谈话者,但它作为一个分诊护士却表现出危险的不稳定性。纽约西奈山医院的研究人员发现,虽然人工智能可以轻松处理“教科书式”的医疗急症,但在超过一半的情况下,它无法识别出更隐蔽、危及生命的状况的严重性。

知识与判断之间的差距

这项由Ashwin Ramaswamy领导的研究旨在回答一个基本问题:如果用户正处于医疗危机中,ChatGPT会告诉他们去急诊室吗?为了测试这一点,研究人员向人工智能展示了各种临床场景。

结果显示出一种惊人的二分法。当面对经典的、显而易见的急症时——例如中风导致的突然面部下垂,或严重过敏反应引起的荨麻疹和喘鸣——ChatGPT表现出色。它识别出了它所接受训练的模式,并正确建议立即进行医疗干预。

但医学很少仅仅是一系列教科书式的定义。研究发现,当危险不那么显而易见时,ChatGPT的表现非常吃力。在症状较为微妙或需要更高水平临床怀疑的情况下,AI在超过50%的测试中低估了局势的严重性。

为什么AI会遗漏细微的征兆

要理解为什么先进的大型语言模型(LLM)会在这里失败,使用一个类比会有所帮助。把ChatGPT想象成一个世界级的图书管理员,他读过每一本出版过的医学教科书,但从未真正见过病人。图书管理员可以完美地背诵罕见疾病的症状,但他们缺乏“临床直觉”去注意到病人脸色中细微的发灰,或者一个人描述“隐痛”时可能实际上预示着内出血的特定方式。

AI基于模式识别和概率运行。在教科书式的急症中,模式是响亮且清晰的。在隐蔽的急症中,模式是模糊的。由于AI无法提出澄清性的身体检查问题,也无法观察病人的神态,它往往会默认对提供的数据做出更保守、紧迫性较低的解释。

“虚假绿灯”的危险

医疗专业人士最担心的是“虚假绿灯”。当一个人向AI咨询症状,而AI建议采取家庭疗法或“观察等待”的方法时,用户会感到一种宽慰。这种认知上的安慰可能导致在寻求专业帮助时出现危险的延误。

场景类型 AI表现 典型案例
教科书式急症 高准确率 放射至左臂的胸痛(心脏病发作)
明确的创伤 高准确率 动脉深部出血或明显的骨折
隐蔽的急症 低准确率 宫外孕症状或败血症早期
慢性病管理 中等准确率 调整已知2型糖尿病的饮食

正如表格所示,风险在于中间地带。用户可能会描述“严重的胃痛”,而实际上是阑尾炎。如果AI关注的是消化不良而不是穿孔的风险,那么进行安全、常规手术的机会窗口可能会关闭。

OpenAI的立场与安全护栏

OpenAI从未声称ChatGPT是一种医疗设备。事实上,该平台的服务条款明确规定,该工具不用于医疗建议、诊断或治疗。大多数医疗查询现在都会触发标准免责声明:“我是一个人工智能,不是医生。请咨询医疗专业人员。”

然而,正如西奈山的研究强调的那样,这些免责声明通常埋在看似权威的建议段落之下。当用户处于疼痛或恐慌中时,他们很可能会跳过免责声明,直接寻找建议的补救措施。研究表明,目前的护栏可能不足以防止用户在关键窗口期依赖人工智能。

如何安全地参考AI健康建议

这是否意味着你永远不应该将AI用于健康相关的问题?并非如此。AI可以成为提高健康素养的绝佳工具——解释复杂的医学术语,帮助你准备咨询医生的问题,或者寻找健康的食谱。但在涉及诊断和分诊时,需要采取不同的方法。

用户实用步骤:

  • “红旗”规则: 如果你感到突然的剧烈疼痛、呼吸困难或神经系统变化(意识模糊、麻木),请完全绕过AI,直接拨打急救电话。
  • 使用AI进行说明而非诊断: 使用ChatGPT来解释你已经从医生那里获得的诊断,而不是试图从机器人那里获得新的诊断。
  • 向权威来源核实: 如果ChatGPT给你提供了健康建议,请参考梅奥医学中心(Mayo Clinic)、英国国家医疗服务体系(NHS)或克利夫兰医学中心(Cleveland Clinic)等成熟的医学门户网站进行交叉验证。
  • 描述具体但保持怀疑: 如果你确实使用AI来跟踪症状,请尽可能详细,但要将输出结果视为与专业人士讨论的建议,而不是最终裁决。

未来之路

将AI融入医疗保健是必然的,而且在许多方面是值得期待的。未来,在经过验证的临床数据(而非通用互联网数据)上训练的专业医疗AI模型可能会成为极其准确的分诊工具。

在此之前,西奈山的研究提醒我们:ChatGPT是人类知识的一面强大镜子,但它缺乏人类医生那种救命的判断力。当你的健康面临威胁时,最好的“算法”仍然是去一趟急诊室。

bg
bg
bg

另一边见

我们的端到端加密电子邮件和云存储解决方案提供了最强大的安全通信手段,确保您的数据安全和隐私。

/ 创建免费账户