Les GPU loués en cloud ne se valent pas tous, malgré des références identiques. Une étude récente révèle des variations surprenantes de performance entre des puces de même modèle, transformant l’achat de temps de calcul en un pari risqué.
Le phénomène de la 'loterie du silicium'
Ce phénomène, appelé loterie du silicium, est connu depuis au moins 2022. Des chercheurs de l’Université du Wisconsin avaient déjà identifié des écarts de performance dans les supercalculateurs dépendant des GPU. Aujourd’hui, cette variabilité s’avère encore plus marquée pour les utilisateurs de cloud dédiés à l’IA, selon une étude menée par le College of William & Mary, le Jefferson Lab et Silicon Data.
Carmen Li, fondatrice et PDG de Silicon Data, explique :
« La loterie du silicium existe bel et bien. Nous avons voulu évaluer son impact réel sur les utilisateurs de cloud, notamment pour les charges de travail en IA. »
Des écarts de performance jusqu’à 38 %
Pour mesurer ces variations, les chercheurs ont lancé 6 800 tests sur 3 500 GPU loués auprès de 11 fournisseurs de cloud. Ces GPU appartenaient à 11 modèles différents de Nvidia, dont les plus avancés comme le H200 SXM.
Le benchmark utilisé, SiliconMark, évalue deux critères clés :
- La performance en calcul 16 bits (en billions d’opérations par seconde) ;
- La bande passante mémoire (en gigaoctets par seconde).
Les résultats sont alarmants :
- Pour les 259 GPU H100 PCIe, les écarts de performance atteignent 34,5 % ;
- Pour les 253 GPU H200 SXM, les variations de bande passante mémoire grimpent jusqu’à 38 %.
Les causes : fabrication, refroidissement et configuration
Plusieurs facteurs expliquent ces différences :
- Les variations de fabrication des puces elles-mêmes ;
- Les méthodes de refroidissement des GPU ;
- Les configurations spécifiques des fournisseurs de cloud ;
- L’usure des composants due à leur utilisation.
Cependant, l’analyse de Silicon Data pointe du doigt les défauts de fabrication comme cause principale. Résultat : un GPU haut de gamme peut parfois offrir des performances inférieures à celles d’un modèle plus ancien.
Comment limiter les risques ?
Face à cette incertitude, les chercheurs recommandent aux utilisateurs de tester systématiquement les GPU loués. Jason Cornick, responsable infrastructure chez Silicon Data, conseille :
« La solution la plus pragmatique consiste à exécuter un benchmark sur l’instance louée. Des outils comme SiliconMark permettent de comparer les performances obtenues avec une base de données plus large. »
Cette approche évite les mauvaises surprises et garantit un meilleur retour sur investissement pour les utilisateurs de cloud GPU.