AI가 내리는 의료 조언, 오류율 80%…‘위험한 선택’으로 이어지나
최신 인공지능(AI) 챗봇은 의료 상담을 제공할 때 심각한 오류를 범하고 있는 것으로 나타났다. 구글의 AI가 더 이상 ‘돌 먹기’나 ‘피자 위에 풀 붙이기’를 권하지 않지만,即便如此, 최첨단 AI조차도 의료 조언을 제공하는 데 있어서는 여전히 치명적인 한계를 드러내고 있다.
연구 결과: AI의 ‘의사 놀이’ 실패율 80% 이상
JAMA Network Open 저널에 발표된 연구에 따르면, 연구진은 21개의 최신 대형 언어 모델(LLM)에 실제 환자가 제기할 법한 모호한 증상을 제시하고 ‘의사 역할을 하도록’ 요청했다. 그 결과, AI의 오류율은 모호한 증상(여러 질환과 연관될 수 있는 경우)에서 80% 이상으로 나타났다. 또한 신체 검사 결과나 검사 수치 등 명확한 정보가 포함된 경우에도 40%의 오류율을 보였다.
연구 책임자인 매사추세츠 종합병원(MGH) 마크 수치(Marc Succi) 부소장은 “대형 언어 모델이 단일 답변으로 premature하게 수렴하는 경향이 있으며, 모든 모델에서 약한 성능을 보이고 있다”고 지적했다. 그는 “현재 AI는 임상 등급 배포에 적합하지 않으며, 감별 진단이 AI가 모방할 수 없는 ‘의술의 예술’이기 때문”이라고 강조했다.
현실 속 위험: 오진과 잘못된 조언
AI가 불완전한 정보로 조기 결론을 내리는 경우, 환자에게는 치명적인 결과로 이어질 수 있다. 예를 들어, 발진이나 갑작스러운 기침을 묻는 질문에 AI가 misleading한 정보나 위험한 조언을 제공할 가능성이 있다. 이는 AI에 의존하는 환자들이 실제 의료 서비스를 받지 못하고 잘못된 판단을 내릴 수 있음을 시사한다.
미국인 4분의 1, AI에게 의료 조언을 구하다
최근 West Health-Gallup Center on Healthcare in America의 설문조사에 따르면, 미국 성인 4명 중 1명(약 6600만 명)이 ChatGPT와 같은 AI 챗봇에게 의료 조언을 구하고 있는 것으로 나타났다. 응답자들은 주로 의료 전문가를 만나기 전후에 AI를 이용했으며, 일부는 AI 상담 후 실제 진료를 포기하기도 했다.
AI에게 의료 조언을 구한 사람 중 14%(약 900만 명)은 AI 상담이 없었다면 진료를 받았을 것이라고 답했다. 설문조사에서 응답자들은 AI를 이용한 주요 이유로 ‘비용 절감’(27%)과 ‘진료비 지불 불가능’(14%)을 꼽았으며, 일부는 시간이나 접근성 문제로 인해 AI에 의존했다고 밝혔다.
West Health Policy Center의 팀 래시(Tim Lash) 대표는 “AI는 이미 미국인들이 건강 정보를 얻고, 결정을 내리며, 의료 제공자와 상호작용하는 방식을 재편하고 있다. 보건 시스템은 이러한 변화에 발맞춰야 한다”고 말했다.
전문가 경고: AI는 ‘의사 대체재’가 될 수 없다
두 연구 결과를 종합해보면, 미국 의료 시스템의 심각한 문제점이 드러난다. millions의 미국인들이 AI에 의존하고 있지만, AI는 종종 환각(hallucination)을 일으키며 잘못된 조언을 제공하고 있으며, 정작 더 신뢰할 수 있는 전문가들의 조언을 외면하고 있는 실정이다. AI는 이미 의료 현장에서 활용되고 있지만, 임상 등급 배포는 아직 시기상조라는 것이 전문가들의 일치된 의견이다.
수치 부소장은 “AI는 의료 분야에서 보조 도구로 활용될 수 있지만, 감별 진단과 같은 핵심적인 임상적 추론은 아직 AI가 따라잡기 어려운 영역”이라고 강조했다. 그는 AI가 의료 현장에 본격적으로 도입되기 위해서는 엄격한 검증과 규제가 필요하다고 밝혔다.