Les laboratoires d'IA les plus influents parient massivement sur les modèles transformateurs pour développer une intelligence artificielle générale (AGI). Cette stratégie, qui repose sur des milliards de dollars d'investissement en R&D et en puissance de calcul, pourrait pourtant s'avérer insuffisante, selon certains experts.

Ben Goertzel, qui a popularisé le terme « AGI » avec son livre Artificial General Intelligence (2005), critique vivement cette approche. « L'industrie commerciale de l'IA mise tout sur la copie de GPT sous différentes formes, ce qui, à mon avis, est un gaspillage de ressources, car tous ces grands modèles de langage (LLM) fonctionnent globalement de la même manière », déclare-t-il. « Quand une méthode fonctionne, tout le monde veut la reproduire et l'amplifier. »

Cependant, cette concentration des ressources sur un seul paradigme comporte des risques. Les modèles transformateurs nécessitent des investissements colossaux en calcul pour leur entraînement, ainsi que des ressources computationnelles continues pour leur fonctionnement. Jusqu'à présent, les gains en intelligence ont été obtenus en augmentant la puissance de calcul et les données d'entraînement. Mais à mesure que les modèles grandissent, ces gains deviennent de plus en plus coûteux, au point que leur rentabilité pourrait bientôt être remise en question.

Par ailleurs, les enjeux financiers élevés limitent la capacité des laboratoires à explorer des approches radicalement différentes. Goertzel souligne qu'une simple augmentation d'échelle ne suffit pas sans les bons algorithmes sous-jacents. Selon lui, une faiblesse majeure des modèles transformateurs réside dans leur incapacité à apprendre en continu à partir de nouvelles expériences, contrairement aux humains. « Ils reviennent toujours à leurs paramètres de base après chaque interaction, sans tirer de leçons significatives des échanges précédents », explique-t-il.

Des chercheurs de Google DeepMind, Microsoft et Safe Superintelligence, fondée par Ilya Sutskever, explorent pourtant des architectures de réseaux de neurones alternatives permettant un apprentissage continu. Goertzel salue la diversité des équipes chez DeepMind, dotées d'une expertise dans des paradigmes d'IA variés. « DeepMind dispose d'une équipe exceptionnelle et d'une expérience solide dans des approches alternatives », précise-t-il.

Résultat : l'industrie de l'IA consacre l'essentiel de ses ressources à perfectionner les méthodes existantes, plutôt qu'à explorer des architectures fondamentalement différentes, pourtant mieux adaptées à la généralisation nécessaire pour une AGI véritable.

Malgré ces critiques, Goertzel reste optimiste quant à l'émergence de l'AGI dans les années à venir. Il estime cependant que cela nécessitera de dépasser le simple scaling des LLM actuels.

Une alternative émergente : les agents intelligents de Sakana AI

La semaine dernière, la startup japonaise Sakana AI, fondée en 2023 par Llion Jones (l'un des neuf inventeurs des modèles transformateurs) et David Ha (ancien chercheur chez Google DeepMind), a lancé en version bêta son produit phare, Sakana Fugu. Ce système d'orchestration multi-agents vise à coordonner plusieurs modèles de fondation de pointe, issus d'OpenAI, Google et Anthropic.

Cette initiative illustre une tendance croissante : l'exploration de nouvelles architectures pour dépasser les limites des modèles transformateurs traditionnels. Alors que l'industrie continue de miser sur des solutions éprouvées, des acteurs comme Sakana montrent que l'innovation pourrait venir de la combinaison intelligente de plusieurs modèles, plutôt que de leur simple agrandissement.

« L'industrie de l'IA commerciale mise tout sur la copie de GPT sous différentes formes, ce qui, à mon avis, est un gaspillage de ressources. »
— Ben Goertzel, expert en AGI