Google a dévoilé cette春季 ses modèles Gemma 4, une série de modèles d'IA ouverts conçus pour fonctionner localement sur des appareils edge. Ces modèles, basés sur la même technologie que les modèles Gemini de pointe de Google, offrent désormais un gain de performance supplémentaire grâce à l'intégration des drafters Multi-Token Prediction (MTP).

Selon Google, ces nouveaux drafters expérimentaux utilisent une forme de décodage spéculatif pour anticiper les tokens futurs. Cette approche permet d'accélérer considérablement la génération de texte par rapport aux méthodes traditionnelles, où les modèles génèrent les tokens un par un de manière séquentielle.

Les modèles Gemma 4 sont optimisés pour s'exécuter sur du matériel local, contrairement à Gemini qui repose sur les puces TPU personnalisées de Google, fonctionnant dans des clusters massifs avec des interconnexions ultra-rapides. Malgré cette différence, un seul accélérateur IA haute performance suffit pour faire tourner le plus grand modèle Gemma 4 en précision totale. De plus, une quantification permet d'exécuter ces modèles sur des GPU grand public.

L'un des principaux avantages de Gemma réside dans la possibilité pour les utilisateurs d'exécuter des modèles d'IA directement sur leur propre matériel, sans avoir à partager leurs données avec des systèmes cloud externes. Google a également simplifié la licence d'utilisation des Gemma 4, passant à la licence Apache 2.0, bien plus permissive que les licences personnalisées des versions précédentes.

Cependant, les performances des modèles locaux restent limitées par les capacités matérielles des appareils grand public. C'est précisément dans ce contexte que les drafters MTP interviennent, offrant une solution pour contourner ces contraintes et améliorer significativement la vitesse de génération des modèles Gemma 4.