AI-modellen groeien, maar de kosten ook
AI-experts waarschuwen al langer dat het steeds groter maken van taalmodellen (LLMs) steeds minder rendement oplevert. Toch brengen techbedrijven zoals Meta voortdurend nieuwe, grotere modellen uit. Het recentste voorbeeld is Llama met maar liefst 2 biljoen parameters. Hoewel grotere modellen krachtiger worden, stijgen ook hun energiebehoefte en rekentijd – en daarmee hun ecologische voetafdruk.
Om deze problemen te beperken, wordt vaak gekozen voor kleinere, minder krachtige modellen of voor het gebruik van minder precieze getallen in de parameters. Maar er is een alternatieve oplossing die de hoge prestaties van grote modellen behoudt, terwijl de rekentijd en energieconsumptie drastisch worden verminderd: het benutten van de nullen in deze modellen.
Sparsiteit als sleutel tot efficiëntie
Veel AI-modellen bevatten een groot aantal parameters die zo dicht bij nul liggen dat ze als nul kunnen worden beschouwd zonder dat dit ten koste gaat van de nauwkeurigheid. Dit fenomeen heet sparsiteit. In plaats van tijd en energie te verspillen aan het optellen of vermenigvuldigen van nullen, kunnen deze berekeningen simpelweg worden overgeslagen. Ook hoeven er geen nulwaarden in het geheugen te worden opgeslagen; alleen de niet-nul parameters moeten worden bewaard.
Helaas zijn de huidige hardware-oplossingen, zoals multicore CPU’s en GPU’s, niet ontworpen om sparsiteit optimaal te benutten. Om dit wel te doen, moeten onderzoekers en ingenieurs het hele ontwerp van de hardware, firmware en software herzien.
Stanford-onderzoekers presenteren baanbrekende hardware
Een onderzoeksteam van Stanford University heeft de eerste hardware ontwikkeld die zowel traditionele als sparse berekeningen efficiënt kan uitvoeren. De energiebesparing varieerde per toepassing, maar gemiddeld verbruikte de chip slechts 1/70e van de energie van een CPU en presteerde acht keer sneller. Om dit te bereiken, moesten de onderzoekers de hardware, firmware en software volledig opnieuw ontwerpen om sparsiteit optimaal te benutten.
Deze doorbraak kan het begin zijn van een nieuwe generatie energiezuinigere AI-hardware en -modellen, waardoor kunstmatige intelligentie duurzamer wordt.
Wat is sparsiteit precies?
Neuraal netwerken en de data die ze verwerken, worden vertegenwoordigd als arrays van getallen. Deze arrays kunnen één- (vectoren), twee- (matrices) of meer dimensies (tensors) hebben. Een sparse vector, matrix of tensor bevat voornamelijk nullen. Wanneer meer dan 50% van de elementen in een array nul is, kan sparsiteit worden benut om berekeningen efficiënter uit te voeren. Een niet-sparse array, met weinig nullen, wordt daarentegen dense genoemd.
Sparsiteit kan van nature aanwezig zijn of kunstmatig worden geïnduceerd. Een voorbeeld van natuurlijke sparsiteit is een sociaalnetwerkgrafiek, waarbij elke knoop een persoon vertegenwoordigt en elke verbinding een vriendschap. Omdat de meeste mensen niet met elkaar bevriend zijn, zal een matrix die alle mogelijke verbindingen weergeeft voornamelijk uit nullen bestaan. Ook andere AI-toepassingen, zoals beeldherkenning of aanbevelingssystemen, kunnen profiteren van sparsiteit.
Toekomst van energiezuinige AI
De ontwikkeling van hardware die sparsiteit volledig benut, kan een gamechanger zijn voor de AI-industrie. Traditionele hardware zoals GPU’s en CPU’s is niet ontworpen om de talloze nullen in grote modellen efficiënt te verwerken. Door hardware, firmware en software volledig opnieuw te ontwerpen, kunnen berekeningen sneller en met minder energie worden uitgevoerd.
Het onderzoeksteam van Stanford hoopt dat hun doorbraak de weg vrijmaakt voor een nieuwe generatie AI-modellen die zowel krachtig als duurzaam zijn. Dit zou niet alleen de kosten verlagen, maar ook de ecologische impact van kunstmatige intelligentie aanzienlijk verminderen.