AI:s storlekskris: Större modeller ger allt mindre vinst
När det kommer till AI-modeller är storlek avgörande – men kanske inte på det sätt man tror. Trots varningar om att allt större språkmodeller (LLM) ger allt mindre prestandaförbättringar fortsätter företag att utveckla allt mer omfattande AI-verktyg. Metas senaste släpp av Llama-modellen har till exempel imponerande två biljoner parametrar.
När modellerna växer ökar deras förmågor, men också energiförbrukningen och beräkningstiden. Detta leder till en större klimatpåverkan. För att motverka detta har man tidigare fokuserat på mindre modeller och lägre precision i parametrarna. Men det finns ett annat sätt: att utnyttja nollorna i modellerna.
Sparsitet: Nyckeln till effektivare AI
I många AI-modeller består majoriteten av parametrarna – vikterna och aktiveringarna – av nollor eller värden så nära noll att de kan behandlas som nollor utan att påverka noggrannheten. Denna egenskap kallas sparsitet.
Sparsitet öppnar för stora beräkningsbesparingar. Istället för att slösa tid och energi på att addera eller multiplicera nollor, kan dessa beräkningar helt hoppas över. Dessutom behöver man inte lagra alla nollor i minnet – bara de icke-noll parametrarna.
Problemet är att dagens hårdvara, som flerkärniga processorer och grafikprocessorer (GPU), inte är optimerade för att utnyttja sparsitet fullt ut. För att dra full nytta av sparsitet krävs en omdesign av hela utvecklingsstacken, inklusive hårdvara, låg-nivå firmware och applikationsmjukvara.
Stanfords genombrott: Hårdvara som utnyttjar sparsitet
Forskare vid Stanford University har utvecklat den första hårdvaran som effektivt kan hantera både sparsamma och traditionella beräkningsbelastningar. Deras chip förbrukar i genomsnitt en sjundedel av energin jämfört med en CPU och utför beräkningarna åtta gånger snabbare.
För att uppnå detta har teamet byggt hårdvara, firmware och mjukvara från grunden för att dra full nytta av sparsitet. Resultatet visar potentialen för mer energieffektiv AI i framtiden.
Vad är sparsitet?
Neurala nätverk och den data som matar in dem representeras ofta som arrayer av tal. Dessa arrayer kan vara endimensionella (vektorer), tvådimensionella (matriser) eller flerdimensionella (tensorer). En spars array har huvudsakligen nollor bland sina element. När antalet nollor överstiger 50 procent av det totala antalet element kan man dra nytta av sparsitets-specifika beräkningsmetoder. Omvänt kallas en array med få nollor för tät (eng. dense).
Sparsitet kan vara naturligt förekommande eller inducerad. Till exempel är en social nätverksgraf ofta naturligt sparsam. Om varje nod representerar en person och varje kant en vänskap, kommer matrisen som representerar alla möjliga kanter huvudsakligen bestå av nollor, eftersom de flesta människor inte är vänner med varandra.
Andra tillämpningar av AI, som bildigenkänning eller rekommendationssystem, kan också dra nytta av sparsitet. Genom att medvetet skapa sparsamma strukturer kan man effektivisera beräkningar och minska minnesanvändningen.
"Vår forskning visar att det är möjligt att utveckla hårdvara som utnyttjar sparsitet fullt ut. Detta kan leda till en ny era av energieffektiv AI, där prestanda och hållbarhet går hand i hand."
Framtidens AI: Mindre resurser, mer effektivitet
Stanfords genombrott är bara början. Genom att omdesigna hårdvara och mjukvara för att dra nytta av sparsitet kan AI-modeller bli både snabbare och mer energieffektiva. Detta öppnar för möjligheten att utveckla avancerade AI-system utan att öka den miljömässiga påverkan.
Framtiden för AI ligger kanske inte i att göra modellerna större, utan i att göra dem smartare – och det börjar med hårdvaran.