모두에게 암을 진단한 의료 챗봇
I’m happy to translate the article for you, but I’ll need the text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line and all formatting exactly as you requested.
Day Four: Panic Mode
고객 지원이 물에 빠지고 있었다. 사용자들은 격분하고 두려워했다. 두통이 있는 사람들은 뇌종양이 있을지도 모른다고 들었다. 감기에 걸린 아이를 둔 부모들은 반응에서 백혈병을 보고 있었다. 기침이 있는 사람들은 폐암에 대해 경고받고 있었다.
나는 로그를 확인했고 즉시 내가 무엇을 했는지 이해했다.
What Was Actually Happening
사용자가 3일 동안 두통이 있었다고 말했다. AI는 가능한 원인들의 긴 목록을 제시했는데—긴장성 두통, 편두통, 탈수, 눈 피로, 부비동 감염—그리고 드물지만 심각한 가능성으로 뇌종양, 수막염, 동맥류를 추가했다. 즉시 의사와 상담하라는 경고로 마무리했다.
AI는 모든 경우에 이렇게 했다. 피로에는 백혈병이 포함되었고, 기침에는 폐암이 포함되었으며, 열에는 생명을 위협하는 상태가 포함되었다.
AI가 기술적으로 틀린 것은 아니었다—그런 일은 일어날 수 있지만—기능적으로는 위험했다.
Why This Happened
내 프롬프트는 AI에게 철저하고 신중하게 행동하도록 지시했습니다: 포괄적인 정보를 제공하고, 드물더라도 항상 심각한 상태를 포함하며, 의심스러울 경우 의사와 상담하도록 권고하라는 것이었습니다. AI는 그 지시를 완벽히 따랐으며, 모든 것을 나열하고, 심각성을 강조하며, 모든 증상에 대해 모든 경우를 상승시켰습니다.
내가 만든 문제
저는 “의대생 증후군”을 대규모로 구현했습니다. 의대생들은 다양한 질병에 대해 배우면서 때때로 자신이 모든 질병에 걸렸다고 믿게 됩니다. 저는 그 경험을 일상 사용자들을 위한 챗봇으로 전환했습니다. AI는 일반적인 설명과 함께 최악의 시나리오를 동등한 비중으로 제시하여, 사용자들이 가장 무서운 가능성에 집착하게 만들었습니다.
실제 사용자 영향
- 가끔 두통이 있던 한 여성은 “뇌종양”이라는 언급을 보고, 3일 동안 잠을 못 자고 응급실에 갔다. 진단: 스트레스.
- 한 부모는 아이의 열에 대해 “백혈병”이 적힌 것을 보고 새벽 2시에 급히 응급실로 달려갔다. 진단: 바이러스 감염.
- 기침이 있는 전 흡연자는 “폐암”이라는 말을 보고 급격히 불안해져 응급실을 방문했으며, 진단은 계절성 알레르기였다.
리뷰에서는 이 앱을 무책임하고 위험하다고 평가했다.
The Legal Scare
2주 차에 변호사가 우리에게 연락했습니다. 한 사용자가 챗봇과의 상호작용 후 일주일에 세 번 응급실에 갔습니다. 매번 AI가 심각한 심장 질환을 제시했지만, 실제 진단은 불안과 공황 발작이었습니다. 사용자는 챗봇이 그들의 불안을 유발해 응급실에 가게 했다고 주장했습니다. 이는 단순히 UX가 나쁘다는 것이 아니라 책임 문제가 드러난 것입니다.
나의 첫 번째 실패한 수정
나는 심각한 상태를 중증 증상으로만 제한하려고 시도했다. 즉시 실패했다. AI는 “중증”이 의미하는 바를 일관되게 해석하지 못했다—일부 가벼운 증상은 과도하게 상승했고, 실제로 우려되는 경우는 과소 평가되었다. 우리는 어느 쪽이든 비난을 받았다.
실제 해결책
나는 시스템을 가능성, 맥락, 그리고 프레이밍을 중심으로 재구성했습니다. AI가 의료 백과사전처럼 행동하던 것을 멈추고 안내자처럼 행동하기 시작했습니다:
- 일반적인 질환을 먼저 나열합니다.
- 드문 질환은 증상 패턴, 지속 시간, 혹은 중증도가 이를 정당화할 때만 언급합니다.
- 단일 경미한 증상만으로는 암을 언급하지 않습니다.
- 짧은 기간은 응급 상황이라는 표현을 유발하지 않습니다.
- 모든 응답은 의사 방문이 언제, 왜 필요한지 명확히 설명합니다.
응답이 어떻게 바뀌었는가
- 3일간 지속되는 두통은 이제 안심, 실용적인 자기 관리 조언, 그리고 명확한 위험 신호 기준을 제공합니다.
- 피로는 먼저 생활 습관에 대한 설명을 제공하고, 언제 의료 평가를 받아야 하는지에 대한 안내를 포함합니다.
- 긴급 상승은 호흡 곤란을 동반한 가슴 통증이나 뇌졸중 증상과 같은 실제 응급 상황에만 발생합니다.
AI가 외치던 것을 멈추고 설명하기 시작했습니다.
어려운 경우 처리
- 증상이 실제로 우려될 경우, AI는 주저함 없이 단호하게 행동합니다—회피도, 긴 목록도 없이—응급 치료를 받으라는 명확한 지시만 제공합니다.
- 증상이 몇 주 동안 지속될 경우, 차분하고 적절하게 상황을 확대합니다.
- 사용자가 명시적으로 두려움을 표현하면, AI는 그 두려움을 직접 다루고, 확률을 설명하며, 무시하지 않고 안심시켜 주고, 건강 불안이 실제임을 인정합니다.
결과
- 수정 전, 대부분의 사용자는 불안하거나 두려움을 느꼈다고 보고했으며; 응급실 방문이 급증했고; 리뷰는 혹독했으며; 법적 위험이 실제로 존재했습니다.
- 수정 후, 공황이 크게 감소했고, 응급실 방문은 드물고 적절해졌으며, 리뷰는 긍정적으로 변했고, 법적 위협은 사라졌습니다.
- 사용자들은 챗봇을 차분하고, 도움이 되며, 안심시킨다고 묘사했습니다.
내가 배운 것
- 완전함은 도움이 되는 것과 동일하지 않다.
- 순서가 중요하다—희귀 질환이 일반 질환과 함께 나열되면 동일하게 가능해 보인다.
- 확률적 맥락 없이 제공되는 의료 정보는 무책임하다.
- 의료 AI는 대부분 다른 분야와 다른 안전 규칙이 필요하다.
- 임상의만을 대상으로 테스트하는 것은 실수이며, 실제 사용자는 확률적으로 생각하지 않는다.
원칙
경고하지 않고 정보를 제공한다.
두렵게 하지 않고 안내한다.
헬스케어 AI는 불안을 만들기보다 줄여야 한다.
목표는 발생할 수 있는 모든 문제를 보여주는 것이 아니라, 사람들로 하여금 공포 없이 합리적인 결정을 내릴 수 있도록 돕는 것이다.
Your Turn
기술적으로는 정확하지만 실제로는 해로운 무언가를 만든 적이 있나요? 민감한 분야에서 철저함과 책임감을 어떻게 균형 잡나요?