Les modèles d'intelligence artificielle (IA) actuels, comme les grands modèles de langage (LLM), reposent sur des architectures toujours plus imposantes. Meta a récemment dévoilé Llama 3 avec 2 000 milliards de paramètres, illustrant cette course à la taille. Pourtant, cette escalade soulève des défis majeurs : coûts énergétiques exorbitants, temps de calcul prolongés et empreinte carbone accrue.

Face à ces limites, une alternative gagne en popularité : l'utilisation de modèles plus petits et de calculs en basse précision. Cependant, une autre piste, moins explorée, pourrait révolutionner l'efficacité des IA. Elle repose sur un principe simple : exploiter les zéros présents dans les réseaux de neurones.

La sparsité : une opportunité méconnue

Dans un réseau de neurones, la majorité des paramètres (poids et activations) sont soit nuls, soit proches de zéro. Cette caractéristique, appelée sparsité, offre une opportunité majeure d'optimisation. Plutôt que de gaspiller des ressources à additionner ou multiplier des zéros, ces calculs pourraient être ignorés. De même, il est inutile de stocker des milliers de zéros en mémoire : seuls les paramètres non nuls méritent d'être conservés.

Pourtant, les architectures matérielles actuelles, comme les CPU ou les GPU, ne tirent pas pleinement parti de cette sparsité. Les chercheurs et ingénieurs doivent repenser l'ensemble de la chaîne de conception : matériel, firmware et logiciels. C'est précisément l'objectif du projet mené par une équipe de l'Université Stanford.

Un matériel révolutionnaire pour des IA plus vertes

Les scientifiques de Stanford ont développé le premier matériel, à leur connaissance, capable de gérer efficacement à la fois les calculs traditionnels et les charges de travail sparses. Les résultats sont impressionnants : en moyenne, leur puce consomme 1/70ème de l'énergie d'un CPU tout en étant 8 fois plus rapide pour les calculs. Pour y parvenir, ils ont dû concevoir une solution complète, depuis le matériel jusqu'au logiciel, en exploitant pleinement la sparsité.

Cette avancée ouvre la voie à une nouvelle génération de matériel et de modèles d'IA, plus économes en énergie et plus performants. Elle pourrait également permettre de démocratiser l'accès à des IA puissantes, sans alourdir davantage la facture énergétique.

Comprendre la sparsité : un concept clé

Les réseaux de neurones reposent sur des tableaux de nombres, appelés vecteurs, matrices ou tenseurs. Un objet est dit sparse lorsque plus de 50 % de ses éléments sont nuls. À l'inverse, un objet dense contient très peu de zéros. La sparsité peut être naturelle ou induite.

Par exemple, un graphe de réseau social est naturellement sparse : chaque nœud représente une personne, et chaque arête une amitié. Comme la plupart des gens ne sont pas amis entre eux, la matrice des relations est majoritairement composée de zéros. D'autres applications de l'IA, comme la recommandation ou le traitement du langage, génèrent également des données sparses.

Les modèles d'IA modernes intègrent souvent des techniques pour induire de la sparsité, réduisant ainsi leur complexité et leur consommation énergétique. En exploitant cette propriété, il devient possible de concevoir des systèmes plus efficaces, sans sacrifier la performance.