Forskning afslører 'silicon lottery' blandt GPU’er

Forestil dig, at to identiske GPU’er fra samme producent og modelnummer leverer vidt forskellig ydelse. Det er ikke blot en hypotese – det er en realitet, som ny forskning fra College of William & Mary, Jefferson Lab og Silicon Data nu dokumenterer.

Fænomenet, kendt som silicon lottery, betyder, at brugere, der lejer GPU’er på cloud-platforme, kan risikere at betale for en topmodel uden at få den forventede ydelse. Ifølge Carmen Li, grundlægger og CEO hos Silicon Data, er problemet særligt udtalt inden for AI-branchen.

Test af 3.500 GPU’er afslører store forskelle

Forskerne gennemførte 6.800 benchmark-tests på 3.500 tilfældigt udvalgte GPU’er fra 11 cloud-udbydere. GPU’erne omfattede 11 forskellige Nvidia-modeller, herunder den avancerede Nvidia H200 SXM. Testen, kaldet SiliconMark, måler en GPU’s evne til at håndtere store sprogmodeller (LLM’er) ved at teste:

  • 16-bit flydende komma-ydelse (målt i trillioner operationer pr. sekund)
  • Intern hukommelsesbåndbredde (målt i gigabyte pr. sekund)

Resultaterne er overraskende

Analysen viste betydelige forskelle i ydelsen på tværs af alle modeller. For eksempel:

  • Ydelsen på 259 H100 PCIe GPU’er varierede med op til 34,5%.
  • Hukommelsesbåndbredden på 253 H200 SXM GPU’er varierede med op til 38%.

Forskerne fandt, at årsagen til variationerne ikke primært skyldtes køling, konfiguration eller brugsgrad, men snarere forskelle i selve chippen – sandsynligvis på grund af produktionsfejl.

Konsekvenser for GPU-lejere

Variationerne har direkte økonomiske konsekvenser. Jason Cornick, infrastrukturchef hos Silicon Data, forklarer:

"Der er en reel risiko for, at en dyrere, avanceret GPU ikke leverer bedre ydelse end en ældre model. Det gør det til en form for lotteri at leje GPU’er på cloud-platforme."

Hvad kan GPU-lejere gøre?

Forskerne anbefaler, at brugere altid tester den konkrete GPU, de lejer, inden de påbegynder arbejdet. Ved at køre en benchmark-test som SiliconMark kan de sammenligne ydelsen med data fra andre brugere og dermed sikre, at de får mest muligt ud af deres investering.

Hvorfor er variationerne så store?

Forskerne peger på flere mulige årsager til variationerne i chipydelsen:

  • Produktionsfejl: Små afvigelser i fremstillingsprocessen kan påvirke ydelsen.
  • Køling og konfiguration: Selv om disse faktorer spiller en rolle, er de ikke den primære årsag.
  • Brugsgrad: Jo mere en GPU har været i brug, desto større kan variationerne blive.

Konklusion: Benchmarking er nøglen til at undgå tab

Med de nye forskningsresultater bliver det tydeligt, at GPU-lejere ikke kan stole på, at en bestemt model altid leverer den forventede ydelse. Den eneste måde at sikre sig mod ubehagelige overraskelser er at teste hver enkelt GPU inden brug. På den måde kan man undgå at betale for ydelse, man ikke får – og i stedet sikre sig det bedste udbytte af sine cloud-ressourcer.