最先端AIでも医療診断は「80%超の誤答率」

GoogleのAIがかつて「岩を食べる」や「ピザに接着剤を塗る」などのとんでもないアドバイスをしていた時代は終わったかもしれない。しかし、現在の最先端AIチャットボットでさえ、医療診断の分野では依然として極めて不十分な状態にあることが、新たな研究で明らかになった。

今週発行された医学専門誌「JAMA Network Open」に掲載された研究では、21の最新大規模言語モデル(LLM)に対し、実際の患者が抱き得る症状を提示し、「医師役」を演じさせる実験が行われた。その結果、AIの失敗率は80%を超えることが判明した。特に、複数の病気の可能性がある曖昧な症状を与えられた場合、その数字はさらに高くなった。

また、身体所見や検査結果などの明確な情報が与えられた場合でも、AIは40%の確率で誤った診断を下した。研究者らは、人間の医師とは異なり、LLMは「早期に単一の答えに固執する」傾向があり、その結果、全てのモデルで「弱いパフォーマンス」にとどまっていると指摘する。

「AIは未だ医療現場に投入できる段階にない」

「最新のLLMであっても、監視なしの臨床グレードの導入にはまだ準備が整っていません。鑑別診断は臨床推論の中核であり、AIが現在複製できない「医術の芸術」の部分です」

マーク・スッチ准教授(マサチューセッツ総合病院、イノベーション・商業化担当副議長)

この研究結果は、現実世界における深刻なリスクを浮き彫りにしている。例えば、発疹や突然の咳などの症状をAIに相談した場合、誤った情報や危険なアドバイスを受ける可能性があるのだ。これは、命に関わる判断をAIに委ねることの危険性を示唆している。

米国で6600万人がAI医療相談、900万人が医師を受診せず

このようなリスクにもかかわらず、米国では既に多くの人々がAIに医療相談を行っている。ウェストヘルス・ギャラップ米国医療センターによる最近の調査によると、米国成人の4分の1にあたる6600万人がChatGPTや類似のチャットボットに医療アドバイスを求めていることが分かった。回答者の多くは、医療専門家に相談する前後でAIを利用していた。

さらに深刻なのは、AIに相談した人のうち14%にあたる900万人以上が、AIのアドバイスを受けたために医師の診察を受けなかったと回答している点だ。その理由として、27%が「医師の診察費を支払いたくなかった」、14%が「支払うことができなかった」と回答。時間的な余裕がない、医師のもとへ行く能力がないと答えた人もいた。

「人工知能は、米国人が健康情報を求め、意思決定を行い、医療提供者と関わる方法を既に変えつつあります。医療システムはその変化に対応しなければなりません」

ティム・ラッシュ(ウェストヘルス政策センター代表)

AI医療相談のリスクと今後の課題

これらの研究結果は、米国の医療現場における深刻な問題を浮き彫りにしている。数千万人の米国人がAIツールに過度に依存している一方で、幻覚を引き起こすLLMによって誤ったアドバイスを受け、より信頼性の高い専門家の助言を求めないという状況が生まれているのだ。

出典: Futurism