Problem rosnących modeli AI
W świecie sztucznej inteligencji wielkość modelu ma znaczenie. Mimo ostrzeżeń ekspertów, że powiększanie dużych modeli językowych (LLM) przynosi coraz mniejsze korzyści, firmy nadal wprowadzają na rynek coraz większe narzędzia AI. Najnowsza wersja modelu Llama od Meta liczy aż 2 biliony parametrów.
Wraz ze wzrostem modeli rośnie ich wydajność, ale także zapotrzebowanie na energię oraz czas potrzebny do ich uruchomienia. To z kolei zwiększa ślad węglowy. Aby przeciwdziałać temu problemowi, sięga się po mniejsze modele lub stosuje liczby o niższej precyzji. Istnieje jednak alternatywny sposób: wykorzystanie zer w dużych modelach AI.
Potencjał rzadkości w modelach AI
W wielu modelach większość parametrów – wag i aktywacji – to zera lub wartości tak bliskie zeru, że można je uznać za nieistotne bez utraty dokładności. Zjawisko to nazywane jest rzadkością (sparsity). Pozwala ono na oszczędności obliczeniowe: zamiast marnować czas i energię na dodawanie lub mnożenie zer, można pominąć te operacje. Zamiast przechowywać wiele zer w pamięci, wystarczy zapisać tylko niezerowe parametry.
Problem w tym, że współczesne układy scalone, takie jak wielordzeniowe procesory CPU czy karty graficzne GPU, nie są przystosowane do efektywnego wykorzystania rzadkości. Aby w pełni ją wykorzystać, konieczna jest przebudowa całego stosu technologicznego – od sprzętu, przez firmware, aż po oprogramowanie aplikacyjne.
Przełomowe rozwiązanie z Uniwersytetu Stanforda
Naukowcy z Uniwersytetu Stanforda opracowali pierwsze (według ich wiedzy) układy scalone zdolne do efektywnego przetwarzania zarówno rzadkich, jak i tradycyjnych obciążeń obliczeniowych. Testy wykazały, że nowy chip zużywa średnio 70 razy mniej energii niż procesor CPU, a obliczenia wykonuje średnio osiem razy szybciej.
Osiągnięcie to wymagało całkowitego przeprojektowania sprzętu, niskopoziomowego oprogramowania układowego i oprogramowania aplikacyjnego, aby w pełni wykorzystać potencjał rzadkości. Badacze mają nadzieję, że to dopiero początek rozwoju energooszczędnych rozwiązań w dziedzinie AI.
Czym jest rzadkość w modelach AI?
Sieci neuronowe i dane, którymi są zasilane, reprezentowane są jako tablice liczb. Mogą to być wektory (tablice jednowymiarowe), macierze (tablice dwuwymiarowe) lub tensory (tablice wielowymiarowe). Rzadka macierz, wektor lub tensor charakteryzuje się tym, że większość jego elementów to zera. Im więcej zer, tym większe korzyści z metod obliczeniowych dostosowanych do rzadkości. W przeciwieństwie do rzadkości, gęste struktury danych zawierają niewiele zer w porównaniu z całkowitą liczbą elementów.
Rzadkość może występować naturalnie lub być indukowana. Przykładem naturalnej rzadkości jest graf sieci społecznościowej. Każdy węzeł reprezentuje osobę, a krawędzie – znajomości. Ponieważ większość osób nie zna się nawzajem, macierz przedstawiająca wszystkie możliwe połączenia będzie w większości wypełniona zerami.
„Rzadkość to klucz do bardziej efektywnych obliczeń w AI. Dzięki niej możemy znacząco ograniczyć zużycie energii i przyspieszyć działanie modeli, nie tracąc przy tym na jakości.”
Przyszłość energooszczędnej AI
Opracowanie nowego układu scalonego to dopiero początek. Aby w pełni wykorzystać potencjał rzadkości, konieczna jest współpraca między inżynierami, badaczami i producentami sprzętu. Przyszłość AI może należeć do modeli, które będą nie tylko potężne, ale także energooszczędne.