Uthyrda GPU-kort spelar inte alltid på samma nivå

Många tror att alla GPU-kort av samma modell presterar likadant, men verkligheten är en annan. En ny studie avslöjar stora skillnader i prestanda mellan identiska chips – ett fenomen som kallas för "silicon lottery". Forskare från College of William & Mary, Jefferson Lab och Silicon Data har nu kartlagt hur detta påverkar kunder som hyr GPU-kraft i molnet.

Varför skiljer sig prestandan åt?

Fenomenet har varit känt sedan 2022, då forskare vid University of Wisconsin kopplade det till variationer i superdatorers GPU-prestanda. Nu visar ny data att effekten är ännu mer påtaglig för AI-företag som hyr GPU-kraft. Skillnaderna beror inte bara på kylning eller molnleverantörernas konfigurationer, utan främst på tillverkningsvariationer i själva chipen.

Stora skillnader i prestanda

Forskarna genomförde 6 800 tester på 3 500 slumpmässigt utvalda GPU-kort från 11 olika molnleverantörer. Bland de testade modellerna fanns Nvidias toppmodeller som H200 SXM. Resultaten visade dramatiska skillnader:

  • H100 PCIe: Prestandaskillnader på upp till 34,5 %
  • H200 SXM: Minnesbandbredd varierade med upp till 38 %

Silicon Data, som genomförde studien, menar att slumpen avgör om du får en topppresterande enhet eller en underpresterande – trots att du betalar för en premiummodell.

Vad kan du göra som kund?

Experterna rekommenderar att alltid testa den specifika GPU-enhet du hyr innan du betalar. Genom att köra ett benchmarkverktyg som SiliconMark kan du jämföra prestandan med andra enheter och undvika att betala för en underpresterande GPU.

"Den mest praktiska lösningen är att testa den enhet du faktiskt hyr. På så sätt kan du jämföra prestandan mot en större datamängd och undvika att betala för en enhet som inte levererar som utlovat."
Jason Cornick, infrastrukturchef på Silicon Data

Vilka risker finns det?

Om du hyr en dyr GPU-modell utan att testa den riskerar du att:

  • Betala mer för en enhet som presterar sämre än en äldre modell
  • Få oönskade förseningar i dina AI-beräkningar
  • Öka dina kostnader genom att behöva hyra fler enheter för att kompensera för låg prestanda

Forskningen visar att "silicon lottery" är ett verkligt problem som påverkar både ekonomi och effektivitet för företag som är beroende av GPU-kraft i molnet.