诊断所有人患癌症的医疗聊天机器人
Source: Dev.to
第四天:恐慌模式
客服支持陷入困境。用户们愤怒且惊恐。头痛的患者被告知可能患有脑肿瘤。感冒孩子的父母在回复中看到白血病。咳嗽的人被警告可能患肺癌。
我检查了日志,立刻明白了自己做了什么。
实际发生了什么
一位用户说他们已经头痛三天了。AI 列出了长长的可能原因——紧张性头痛、偏头痛、脱水、眼睛疲劳、鼻窦感染——随后又补充了罕见但严重的可能性:脑肿瘤、脑膜炎、动脉瘤。最后警告说要立即就医。
它对所有情况都这样做。疲劳包括白血病。咳嗽包括肺癌。发热包括危及生命的疾病。
AI 并不是技术上错误——这些情况确实可能发生——但它在功能上是危险的。
为什么会发生这种情况
我的提示要求 AI 详尽且谨慎:提供全面的信息,即使是罕见的也要始终包括严重疾病,并在有疑虑时建议就医。AI 完全遵循了这些指示,列出所有内容,强调严重性,并对每一种症状都进行升级处理。
我创造的问题
我把“medical student syndrome”规模化了。医学生学习许多疾病,有时会误以为自己患有所有这些疾病。我把这种体验做成了面向普通用户的聊天机器人。AI 将最坏情况的情景与常见解释同等呈现,导致用户过度关注最可怕的可能性。
实际用户影响
- 一位偶尔头痛的女性看到“脑肿瘤”被提及,三天未眠,随后前往急诊。诊断:压力。
- 一位家长在孩子发烧时看到“白血病”被列出,凌晨两点冲向急诊。诊断:病毒感染。
- 一位有咳嗽的前吸烟者看到“肺癌”,情绪失控,前往急诊,最终诊断为季节性过敏。
评论称该应用不负责任且危险。
法律恐慌
在第二周,一位律师联系了我们。一名用户在与聊天机器人互动后,在一周内三次前往急诊室。每次,AI 都建议可能出现严重的心脏疾病;实际诊断为焦虑和惊恐发作。该用户声称是聊天机器人导致了焦虑,使其被送往急诊。这揭示了责任问题,而不仅仅是糟糕的用户体验。
我的首次失败修复
我尝试将严重情况限制为严重症状。这立刻就失败了。AI 无法一致地解释“严重”是什么意思——一些轻微症状被升级,而一些真正令人担忧的情况被淡化。无论哪种情况,我们都被指责。
实际解决方案
我重新构建了系统,使其围绕可能性、情境和框架进行工作。AI 不再像医学百科全书,而是像一个指南:
- 常见疾病优先列出。
- 仅在症状模式、持续时间或严重程度足以说明时,才会提及罕见疾病。
- 单一轻微症状不再触发癌症提示。
- 短期持续时间不会触发紧急语言。
- 每个回复都会清晰说明何时以及为何需要就医。
响应变化方式
- 三天的头痛现在会提供安慰、实用的自我护理建议以及明确的危险信号标准。
- 疲劳首先给出生活方式的解释,并提供何时寻求医学评估的指导。
- 紧急升级仅在真正的紧急情况出现,如胸痛伴呼吸短促或中风症状时。
AI 不再大声喊叫,而是开始解释。
处理困难情况
- 当症状确实令人担忧时,AI 会果断行动——不含糊、不列长清单——只给出明确的就医急救指示。
- 当症状持续数周时,AI 会冷静且恰当地升级处理。
- 当用户明确表达恐惧时,AI 会直接面对这种恐惧,解释概率,提供安慰而不轻视,并承认健康焦虑是真实存在的。
结果
- 在修复之前,大多数用户报告感到焦虑或害怕;急诊就诊激增;评论非常苛刻;法律风险是真实的。
- 在修复之后,恐慌显著下降,急诊就诊变得稀少且恰当,评论转为正面,法律威胁消失。
- 用户形容聊天机器人让人感到平静、帮助大、令人安心。
我学到的
- 完整性并不等同于有用性。
- 顺序很重要——罕见疾病与常见疾病并列时,会让人觉得它们同样可能。
- 没有概率背景的医学信息是不负责任的。
- 医疗保健 AI 需要不同于大多数其他领域的安全规则。
- 仅在临床医生中进行测试是错误的;真实用户并不会以概率思考。
原则
在不惊慌的情况下提供信息。 在不恐吓的情况下引导。 医疗保健 AI 应该降低焦虑,而不是制造焦虑。 目标不是展示所有可能出错的情况,而是帮助人们在不惊慌的前提下做出合理的决定。
Your Turn
你有没有构建过在技术上是正确的,但在实际使用中有害的东西?在敏感领域,你如何在彻底性和责任感之间取得平衡?