Quando si affitta una GPU da un provider cloud, si dà per scontato che tutte le unità dello stesso modello offrano prestazioni simili. Non è così. Una ricerca condotta dal College of William & Mary, dal Jefferson Lab e da Silicon Data ha dimostrato che esiste una variabilità sorprendente nelle prestazioni dei chip, anche tra quelli della stessa serie.
Questa discrepanza, nota come ‘silicon lottery’, può trasformare l’affitto di una GPU in un vero e proprio azzardo. «Si tratta di un fenomeno noto almeno dal 2022», spiega Carmen Li, fondatrice e CEO di Silicon Data, che monitora i prezzi delle GPU e i benchmark delle prestazioni cloud. «Ma per gli utenti di intelligenza artificiale, l’impatto è ancora più significativo».
Lo studio: 6.800 test su 3.500 GPU
Per quantificare il fenomeno, i ricercatori hanno eseguito 6.800 test benchmark su 3.500 GPU casuali, distribuite tra 11 provider cloud. Le GPU analizzate appartenevano a 11 modelli Nvidia, tra cui i top di gamma come l’H200 SXM. Il benchmark utilizzato, chiamato SiliconMark, valuta la capacità di un chip di eseguire modelli linguistici di grandi dimensioni (LLM), misurando:
- Le prestazioni di calcolo in virgola mobile a 16 bit (in trilioni di operazioni al secondo);
- La larghezza di banda della memoria interna (in gigabyte al secondo).
I risultati hanno rivelato differenze significative: per le 259 GPU H100 PCIe, le prestazioni di calcolo variavano fino al 34,5%, mentre per le 253 H200 SXM, la larghezza di banda della memoria differiva fino al 38%.
Le cause della variabilità: non solo configurazione, ma anche difetti di fabbricazione
Inizialmente, si era ipotizzato che le differenze fossero dovute a fattori esterni, come il sistema di raffreddamento, la configurazione dei provider o l’usura dei chip. Tuttavia, l’analisi di Silicon Data ha evidenziato che la vera causa risiede nelle variazioni intrinseche dei semiconduttori, probabilmente legate a difetti di produzione.
Questa casualità ha implicazioni economiche concrete: un utente potrebbe pagare di più per una GPU avanzata, solo per scoprire che non offre prestazioni superiori a un modello più vecchio. «Il rischio è reale», afferma Jason Cornick, responsabile dell’infrastruttura di Silicon Data.
Come difendersi: benchmark prima dell’affitto
Per evitare sorprese, gli esperti consigliano di testare sempre la GPU affittata prima di utilizzarla. «Il modo più pratico è eseguire un benchmark come SiliconMark», spiega Cornick. «In questo modo, si può confrontare la prestazione dell’unità affittata con un campione più ampio di dati».
«La silicon lottery esiste e va presa in considerazione. Chi affitta GPU dovrebbe pretendere trasparenza sulle prestazioni reali, non solo sulle specifiche tecniche».
— Carmen Li, CEO di Silicon Data
In un mercato in cui i costi delle GPU cloud possono raggiungere cifre elevate, questa precauzione non è solo consigliata, ma necessaria per massimizzare il ritorno sull’investimento.