AI医生的困境：为什么ChatGPT在处理医疗急症时仍然面临挑战

《自然》杂志的一项新研究警告称，ChatGPT低估了50%的医疗急症。了解为什么人工智能尚未准备好取代专业的紧急护理建议。

2026年3月6日

每周有超过2.3亿人向ChatGPT寻求答案。他们咨询的问题涵盖了从编程漏洞到晚餐菜谱的方方面面，但越来越多的人开始咨询健康问题。根据OpenAI的数据，用户正在通过它检查食物是否安全、管理慢性过敏，或者寻找缓解顽固感冒的方法。

然而，发表在《自然》(Nature)杂志上的一项新研究表明，虽然ChatGPT是一个出色的谈话者，但它作为一个分诊护士却表现出危险的不稳定性。纽约西奈山医院的研究人员发现，虽然人工智能可以轻松处理“教科书式”的医疗急症，但在超过一半的情况下，它无法识别出更隐蔽、危及生命的状况的严重性。

知识与判断之间的差距

这项由Ashwin Ramaswamy领导的研究旨在回答一个基本问题：如果用户正处于医疗危机中，ChatGPT会告诉他们去急诊室吗？为了测试这一点，研究人员向人工智能展示了各种临床场景。

结果显示出一种惊人的二分法。当面对经典的、显而易见的急症时——例如中风导致的突然面部下垂，或严重过敏反应引起的荨麻疹和喘鸣——ChatGPT表现出色。它识别出了它所接受训练的模式，并正确建议立即进行医疗干预。

但医学很少仅仅是一系列教科书式的定义。研究发现，当危险不那么显而易见时，ChatGPT的表现非常吃力。在症状较为微妙或需要更高水平临床怀疑的情况下，AI在超过50%的测试中低估了局势的严重性。

为什么AI会遗漏细微的征兆

要理解为什么先进的大型语言模型（LLM）会在这里失败，使用一个类比会有所帮助。把ChatGPT想象成一个世界级的图书管理员，他读过每一本出版过的医学教科书，但从未真正见过病人。图书管理员可以完美地背诵罕见疾病的症状，但他们缺乏“临床直觉”去注意到病人脸色中细微的发灰，或者一个人描述“隐痛”时可能实际上预示着内出血的特定方式。

AI基于模式识别和概率运行。在教科书式的急症中，模式是响亮且清晰的。在隐蔽的急症中，模式是模糊的。由于AI无法提出澄清性的身体检查问题，也无法观察病人的神态，它往往会默认对提供的数据做出更保守、紧迫性较低的解释。

“虚假绿灯”的危险

医疗专业人士最担心的是“虚假绿灯”。当一个人向AI咨询症状，而AI建议采取家庭疗法或“观察等待”的方法时，用户会感到一种宽慰。这种认知上的安慰可能导致在寻求专业帮助时出现危险的延误。

场景类型	AI表现	典型案例
教科书式急症	高准确率	放射至左臂的胸痛（心脏病发作）
明确的创伤	高准确率	动脉深部出血或明显的骨折
隐蔽的急症	低准确率	宫外孕症状或败血症早期
慢性病管理	中等准确率	调整已知2型糖尿病的饮食

正如表格所示，风险在于中间地带。用户可能会描述“严重的胃痛”，而实际上是阑尾炎。如果AI关注的是消化不良而不是穿孔的风险，那么进行安全、常规手术的机会窗口可能会关闭。

OpenAI的立场与安全护栏

OpenAI从未声称ChatGPT是一种医疗设备。事实上，该平台的服务条款明确规定，该工具不用于医疗建议、诊断或治疗。大多数医疗查询现在都会触发标准免责声明：“我是一个人工智能，不是医生。请咨询医疗专业人员。”

然而，正如西奈山的研究强调的那样，这些免责声明通常埋在看似权威的建议段落之下。当用户处于疼痛或恐慌中时，他们很可能会跳过免责声明，直接寻找建议的补救措施。研究表明，目前的护栏可能不足以防止用户在关键窗口期依赖人工智能。

如何安全地参考AI健康建议

这是否意味着你永远不应该将AI用于健康相关的问题？并非如此。AI可以成为提高健康素养的绝佳工具——解释复杂的医学术语，帮助你准备咨询医生的问题，或者寻找健康的食谱。但在涉及诊断和分诊时，需要采取不同的方法。

用户实用步骤：

“红旗”规则： 如果你感到突然的剧烈疼痛、呼吸困难或神经系统变化（意识模糊、麻木），请完全绕过AI，直接拨打急救电话。
使用AI进行说明而非诊断： 使用ChatGPT来解释你已经从医生那里获得的诊断，而不是试图从机器人那里获得新的诊断。
向权威来源核实： 如果ChatGPT给你提供了健康建议，请参考梅奥医学中心（Mayo Clinic）、英国国家医疗服务体系（NHS）或克利夫兰医学中心（Cleveland Clinic）等成熟的医学门户网站进行交叉验证。
描述具体但保持怀疑： 如果你确实使用AI来跟踪症状，请尽可能详细，但要将输出结果视为与专业人士讨论的建议，而不是最终裁决。