最新AIモデル、業務タスクで25%のミスを引き起こす

AIによる業務自動化は、生産性向上と効率化を目指す一方で、人員削減の前触れと捉えられることが多い。しかし、マイクロソフトの研究者らによる未査読論文(IT Proが報じた)によれば、最新のAIシステムは実務タスクにおいて驚くほど脆弱であることが判明した。

主要AIモデルの実力テスト

研究チームは、OpenAIのGPT 5.4、AnthropicのClaude Opus 4.6、GoogleのGemini 3.1 Proなどの最先端モデルを対象に、複雑な業務タスクを実施させた。その結果、これらのAIは文書処理において平均25%の内容破損を引き起こすことが明らかになった。古いモデルではさらに深刻な失敗が確認されたという。

「これらのモデルは、ほとんどの分野における委任型ワークフローに対応できていない」
— マイクロソフト研究者らの結論

この発見は、AIへの大規模投資を進めるマイクロソフトにとって、特に衝撃的な内容だ。同社はWindows 11のあらゆる側面にAI技術を組み込もうとしているが、その試みはしばしば失敗に終わっている。なお、同社の自社製品であるCopilot AIは今回の評価対象外であった。

「AIワークスロップ」の深刻化

研究者らは、AIに頼りすぎた結果、業務上のミスやデータ消失といった問題が頻発する可能性を指摘する。これは「AIワークスロップ(AIが引き起こす業務の混乱)」と呼ばれ、スタンフォード大学の研究でもその実態が明らかにされている。

「AIワークスロップ」とは、AIに依存した従業員が不完全な成果物を生み出し、最終的に人間が修正を強いられる状況を指す。この問題は、企業の生産性低下や業務効率の悪化につながる可能性がある。

AI導入の現実的課題

AI技術の進化は目覚ましいものの、実務への適用には依然として多くの課題が残されている。特に、業務タスクにおける信頼性の低さは、企業がAI導入を慎重に進める必要性を示唆している。

マイクロソフトの研究者らは、AIを業務に導入する際には、その限界を理解し、人間による監督と修正の仕組みを整備することが不可欠だと強調している。

出典: Futurism