AI 챗봇, 의료 상담 수단으로 급부상… but 심각한 오류 잇따라

최근 미국에서 수천만 명의 환자들이 의료 상담을 위해 AI 챗봇을 사용하고 있는 것으로 나타났다. 그러나 대규모 언어 모델(LLM) 기반 AI 도구들은 심각한 오류를 반복하고 있으며, 이는 환자들의 안전을 위협할 수 있는 상황이다.

AI는 의료 기록 요약이나 간단한 텍스트 프롬프트를 통한 건강 상담 등 다양한 역할을 수행할 수 있는 것으로 알려져 있지만, 연구자들은 AI가 제공하는 정보의 신뢰성에 심각한 의문을 제기하고 있다. 특히 환각(hallucination) 현상은 AI가 존재하지 않는 임상 소견을 상세히 생성하거나, 연구자들이 고의로 만든 가짜 질병을 실제 질병으로 오인하는 등 심각한 문제로 지적된다.

네이처 메디신, AI 의료 기술의 근거 부족 지적

화요일(현지시간) 네이처 메디신(Nature Medicine)에 게재된 Editorial은 AI가 환자, 의료 제공자 또는 의료 시스템에 실질적인 가치를 제공했다는 증거가 부족하다고 지적했다. Editorial은 "AI 도구가 환자, 제공자 또는 의료 시스템에 가치를 창출한다는 증거는 여전히 부족하다"며 "출판물과 제품 설명에서 임상적 영향에 대한 주장이 increasingly common해지고 있지만, 이러한 주장의 신뢰성을 입증할 명확한 근거가 없다"고 밝혔다.

또한, Editorial은 "이 결과는 과학적 불확실성뿐만 아니라 조급한 도입과 채택으로 이어질 수 있다"며, AI 의료 기술의 평가를 위한 프레임워크 마련이 시급하다고 강조했다. 구체적으로는 "AI 의료 기술이 어떤 기준으로 평가되어야 하는지, 어떤 мет릭을 사용해야 하는지, 그리고 어떤 벤치마크와 비교해야 하는지"에 대한 명확한 기준이 필요하다고 지적했다.

실험실에서 vs 실제 임상 현장… AI의 한계 드러나

AI는 실험실 환경에서 뛰어난 성능을 발휘하는 것처럼 보이지만, 실제 임상 현장에서는 한계를 드러내고 있다. 최근 JAMA Medicine에 게재된 연구에 따르면, 모호한 증상을 제공했을 때 최신 AI 모델들은 80% 이상의 경우에서 올바른 진단을 내리지 못했다.

하버드 메디컬 스쿨 외과학 조교수인 제이미 로버트슨(Jamie Robertson)은 "AI는Tedious하고 어려운 데이터 분석 과정을 가속화하는 데 도움이 될 수 있으며, 코드 생성이나 시나리오 제안 등에도 활용될 수 있다"면서도, "임상 연구에서 AI를 사용할 때는 올바른 활용법과 한계를 정확히 이해하고 있어야 한다"고 경고했다.

과학적 엄격성 훼손 우려… 가짜 데이터 확산 가능성

연구자들은 AI 도구에 과도하게 의존할 경우 과학적 엄격성이 훼손될 우려가 있다고 지적한다. 특히 AI가 생성한 과도하게 일반화된 데이터나 환각 데이터가 의료 분야에 확산될 가능성이 크다는 것이다.

스웨덴 예테보리 대학의 알미라 오스마노비치 투른스트룀(Almira Osmanovic Thunström) 연구원은 가짜 피부 질환 연구를 AI가 실제 질병으로 오인하도록 유도하는 실험을 진행했다. 놀랍게도 이 가짜 연구는 사전 출판 서버에 업로드된 후, 다른 동료 검토 학술지에 인용되어 발표되기도 했다. 이후 해당 논문들은 모두 철회되었지만, 이는 AI가 생성한 데이터의 신뢰성에 대한 심각한 문제를 드러냈다.

"다음 단계의 발전은 더 나은 모델과 새로운 응용 프로그램뿐만 아니라, AI가 생성한 데이터의 신뢰성을 확보하기 위한 노력도 함께 이루어져야 한다."

AI 의료 기술, 신중한 접근 필요

의료 분야에서 AI 기술의 도입은 가속화되고 있지만, 그 한계와 위험성을 인지하고 신중한 접근이 요구된다. 네이처 메디신의 Editorial은 AI가 제공하는 임상적 영향에 대한 근거 부족을 지적하며, AI 의료 기술의 평가를 위한 명확한 프레임워크 마련을 촉구했다. 연구자들은 AI가 보조 도구로 활용될 수는 있지만, 최종적인 의사 결정은 인간의 전문가에게 맡겨야 한다고 강조하고 있다.

출처: Futurism