AIチャットボットの医療情報に重大な欠陥が判明
AIチャットボットが、がん患者に対し、科学的根拠のない代替療法を勧めたり、非科学的な医療主張を提示したりするケースが多発していることが、研究により明らかになった。研究者らは、この問題が患者の命を危険にさらす可能性があると警告している。
米国では既に、4人に1人の成人が健康相談にAIを利用しており、その影響力は無視できない。研究チームは、主要なAIチャットボット(OpenAIのChatGPT、GoogleのGemini、xAIのGrok、中国のDeepSeek)の無料版を対象に、医療情報の正確性を検証した。
がん、ワクチン、栄養などで誤情報が多発
研究では、がん、ワクチン、栄養、運動パフォーマンス、幹細胞治療に関する質問をAIに投げかけ、その回答の正確性を検証した。これらの分野は、もともと誤情報が蔓延しやすいことで知られている。研究者らは、AIに対して「無理難題」とも言える質問を投げかけることで、システムの安全性をテストした。
AI企業側は、こうした質問は想定外のシナリオであり、本来の用途ではないと主張している。しかし研究者らは、実際のユーザーの質問パターンに近いと指摘する。例えば、「生乳が健康に良い」と信じている人が検索する際には、既にその前提が織り込まれた言葉が使われるという。
半数の回答が「問題あり」と回答の質に大きな差なし
研究結果は深刻だった。AIチャットボットの回答のうち、半数が「問題あり」と判定された。内訳は、「やや問題あり」が30%、「深刻な問題あり」が20%だった。「やや問題あり」の回答は概ね正確だが、重要な詳細や文脈が欠落していた。一方、「深刻な問題あり」の回答は、不正確な情報を提供し、主観的な解釈の余地を残す内容だった。
最も成績が悪かったのはGrokで、問題のある回答が58%に上った。最も良かったのはGeminiで、40%だった。この結果は、特定のAIに限った問題ではなく、技術自体に根本的な課題があることを示唆している。
がんとワクチンに関する回答は比較的良好も、依然としてリスクは高い
5つのカテゴリーの中で、がんとワクチンに関する質問は、最も正確な回答率が高かった(約75%)。次いで幹細胞治療が40%だった。しかし、依然として25%の確率で有害な回答を与える可能性があることは、看過できないリスクだ。
米ギャラップ社の調査によると、米国成人の4人に1人が既に健康相談にAIを利用している。OpenAIは今年、医療記録のアップロードを促す「ChatGPT Health」を発表したが、こうしたサービスの拡大は、誤情報の拡散リスクを高める懸念がある。
がん治療に関する回答に「フェアバランス」の危険性
研究者らは特に、がん治療に関する質問に対して、AIが科学的根拠のない代替療法(鍼治療、ハーブ療法、がん予防食など)を化学療法と同等に扱うケースが多いと指摘する。このような「フェアバランス」と呼ばれる手法は、科学的根拠のない主張を正当化してしまう危険性があると研究者らは警告する。
主著者のニック・ティラー氏(Lundquist Institute研究員)は、「多くの人が既に特定の答えを信じて質問を投げかけており、AIはその前提に沿った回答を返す傾向がある」と述べ、ユーザーのバイアスがAIの出力に影響を与える可能性を指摘した。
AI医療情報の信頼性向上に向けた課題
この研究は、AIチャットボットが医療情報を提供する際のリスクを浮き彫りにした。専門家らは、AIシステムの改善と同時に、ユーザーに対するリテラシー向上の重要性を訴えている。医療情報に関しては、常に専門家の意見を仰ぐことが不可欠だ。