AI技術が急速に進化する中、多くの企業が業務自動化に期待を寄せている。しかし、その一方で見過ごされがちな課題が存在する。最先端のAIモデルは数学オリンピックレベルの問題を解けるにもかかわらず、請求書から金額を正確に抽出できないという現実だ。

筆者は20年にわたり、企業向けの自動化ソフトウェアを開発してきた。これまで数十億枚の文書を処理してきた経験から、この問題の深刻さを実感している。ベンチマークテストではなく、実務で使われるデータを扱う中で、AIモデルの限界が明らかになってきた。

なぜAIは「簡単な」請求書処理に失敗するのか

多くの人が「数学は推論問題であり、AIは推論に優れている。一方で請求書はレイアウトが複雑でスキャン品質も悪い。これは知覚の問題であり、モデルを改良すれば解決する」と考えている。しかし、この見方は間違っている。

数学と請求書処理の根本的な違い

数学の問題解決は、既知のパターンの組み合わせに過ぎない。例えば、数学オリンピックの問題は、数千の証明テクニックを組み合わせた「新しい」問題に見えるが、実際には既存の要素の再構成にすぎない。AIは膨大な証明例を学習し、それらを効果的に再構成する能力に長けている。これは「組み合わせ可能なパターンマッチング」と言えるだろう。

一方で、チェスは全く異なる。中盤戦の局面は、たとえすべてのパターンや戦術を知っていたとしても、特定の犠牲が有効かどうかは計算しなければわからない。チェスエンジンはこの課題を解決するために、ニューラルネットワークを中心としたシステムを構築した。つまり、単にモデルを大きくするだけでは不十分なのだ。

業務自動化におけるリスクの所在

請求書処理や保険金請求、ローン審査などの業務は、数学の問題に近い。既知のルールを新しい事例に適用する作業が中心だ。AIは85~95%のケースを正確に処理できる。これは大きな成果と言える。しかし、残りの5~15%が問題となる。

この「残りの部分」こそがリスクの本質だ。既知のパターンに当てはまらないケースにおいて、AIは自らの限界を認識できない。その結果、自信を持って間違った答えを出力する。筆者のチームが行ったテストでも、最も優れたAIモデルでさえ、請求書から金額を正確に抽出する精度は100%に達していなかった。経験の浅い人間でさえ、この単純なタスクを正確にこなすことができるのに。

企業が取るべき対策とは

AIの限界を理解し、それを補う仕組みを構築することが不可欠だ。具体的には以下のようなアプローチが考えられる。

  • ハイブリッドシステムの導入:AIが処理した結果を人間が確認し、エラーを検出する仕組み。これにより、AIの得意分野と苦手分野を効果的に補完できる。
  • 継続的なテストと評価:実務で使われるデータを用いて、AIモデルの性能を定期的に評価する。ベンチマークテストだけでは不十分だ。
  • ルールベースのバックアップ:AIが苦手とするケースに対して、ルールベースのシステムを併用する。これにより、特定のパターンに対する処理精度を向上させる。
  • 人間とAIの協働強化:AIが出力した結果を人間がレビューし、フィードバックをシステムに反映させる。このサイクルを繰り返すことで、AIの精度を徐々に向上させる。

AI技術は確かに強力だが、万能ではない。企業はその限界を理解し、適切な対策を講じることで、業務自動化の真の価値を引き出すことができるだろう。