每周有超过2.3亿人向ChatGPT寻求答案。他们咨询的问题涵盖了从编程漏洞到晚餐菜谱的方方面面,但越来越多的人开始咨询健康问题。根据OpenAI的数据,用户正在通过它检查食物是否安全、管理慢性过敏,或者寻找缓解顽固感冒的方法。
然而,发表在《自然》(Nature)杂志上的一项新研究表明,虽然ChatGPT是一个出色的谈话者,但它作为一个分诊护士却表现出危险的不稳定性。纽约西奈山医院的研究人员发现,虽然人工智能可以轻松处理“教科书式”的医疗急症,但在超过一半的情况下,它无法识别出更隐蔽、危及生命的状况的严重性。
这项由Ashwin Ramaswamy领导的研究旨在回答一个基本问题:如果用户正处于医疗危机中,ChatGPT会告诉他们去急诊室吗?为了测试这一点,研究人员向人工智能展示了各种临床场景。
结果显示出一种惊人的二分法。当面对经典的、显而易见的急症时——例如中风导致的突然面部下垂,或严重过敏反应引起的荨麻疹和喘鸣——ChatGPT表现出色。它识别出了它所接受训练的模式,并正确建议立即进行医疗干预。
但医学很少仅仅是一系列教科书式的定义。研究发现,当危险不那么显而易见时,ChatGPT的表现非常吃力。在症状较为微妙或需要更高水平临床怀疑的情况下,AI在超过50%的测试中低估了局势的严重性。
要理解为什么先进的大型语言模型(LLM)会在这里失败,使用一个类比会有所帮助。把ChatGPT想象成一个世界级的图书管理员,他读过每一本出版过的医学教科书,但从未真正见过病人。图书管理员可以完美地背诵罕见疾病的症状,但他们缺乏“临床直觉”去注意到病人脸色中细微的发灰,或者一个人描述“隐痛”时可能实际上预示着内出血的特定方式。
AI基于模式识别和概率运行。在教科书式的急症中,模式是响亮且清晰的。在隐蔽的急症中,模式是模糊的。由于AI无法提出澄清性的身体检查问题,也无法观察病人的神态,它往往会默认对提供的数据做出更保守、紧迫性较低的解释。
医疗专业人士最担心的是“虚假绿灯”。当一个人向AI咨询症状,而AI建议采取家庭疗法或“观察等待”的方法时,用户会感到一种宽慰。这种认知上的安慰可能导致在寻求专业帮助时出现危险的延误。
| 场景类型 | AI表现 | 典型案例 |
|---|---|---|
| 教科书式急症 | 高准确率 | 放射至左臂的胸痛(心脏病发作) |
| 明确的创伤 | 高准确率 | 动脉深部出血或明显的骨折 |
| 隐蔽的急症 | 低准确率 | 宫外孕症状或败血症早期 |
| 慢性病管理 | 中等准确率 | 调整已知2型糖尿病的饮食 |
正如表格所示,风险在于中间地带。用户可能会描述“严重的胃痛”,而实际上是阑尾炎。如果AI关注的是消化不良而不是穿孔的风险,那么进行安全、常规手术的机会窗口可能会关闭。
OpenAI从未声称ChatGPT是一种医疗设备。事实上,该平台的服务条款明确规定,该工具不用于医疗建议、诊断或治疗。大多数医疗查询现在都会触发标准免责声明:“我是一个人工智能,不是医生。请咨询医疗专业人员。”
然而,正如西奈山的研究强调的那样,这些免责声明通常埋在看似权威的建议段落之下。当用户处于疼痛或恐慌中时,他们很可能会跳过免责声明,直接寻找建议的补救措施。研究表明,目前的护栏可能不足以防止用户在关键窗口期依赖人工智能。
这是否意味着你永远不应该将AI用于健康相关的问题?并非如此。AI可以成为提高健康素养的绝佳工具——解释复杂的医学术语,帮助你准备咨询医生的问题,或者寻找健康的食谱。但在涉及诊断和分诊时,需要采取不同的方法。
用户实用步骤:
将AI融入医疗保健是必然的,而且在许多方面是值得期待的。未来,在经过验证的临床数据(而非通用互联网数据)上训练的专业医疗AI模型可能会成为极其准确的分诊工具。
在此之前,西奈山的研究提醒我们:ChatGPT是人类知识的一面强大镜子,但它缺乏人类医生那种救命的判断力。当你的健康面临威胁时,最好的“算法”仍然是去一趟急诊室。



