Yapay zeka (AI) modellerinde performans artışı için model boyutu önemli bir faktör olarak görülüyor. Ancak bazı uzmanlar, büyük dil modellerinin (LLM) ölçeklendirilmesinin performans artışında azalan getiriyle karşılaştığını belirtiyor. Buna rağmen şirketler, sürekli olarak daha büyük AI araçları piyasaya sürmeye devam ediyor. Meta’nın en son Llama modeli, 2 trilyon parametreye ulaşarak bu eğilimi gözler önüne serdi.
Model boyutu büyüdükçe yetenekler artıyor, ancak enerji tüketimi ve çalıştırma süresi de aynı oranda artıyor. Bu durum, AI modellerinin karbon ayak izini önemli ölçüde yükseltiyor. Bu sorunu hafifletmek için araştırmacılar, daha küçük ve daha az yetenekli modeller veya daha düşük hassasiyetli parametreler kullanmaya yöneldi. Ancak, büyük modellerin yüksek performansını korurken, çalıştırma süresini ve enerji tüketimini azaltmanın başka bir yolu daha var: sıfır yoğunluğu (sparsity).
Çoğu AI modelinde, parametrelerin (ağırlıklar ve aktivasyonlar) büyük bir kısmı aslında sıfır ya da sıfıra çok yakın değerlerdir. Bu durum, hesaplama doğruluğunu kaybetmeden bu değerleri sıfır olarak kabul etme fırsatı sunar. Sıfır yoğunluğu olarak adlandırılan bu özellik, hesaplama maliyetlerini önemli ölçüde azaltabilir. Sıfırları hesaplamak yerine, bu işlemler atlanabilir ve bellekte sadece sıfır olmayan parametreler saklanabilir.
Ne yazık ki, mevcut donanımlar (çok çekirdekli CPU’lar ve GPU’lar) sıfır yoğunluğundan tam olarak yararlanacak şekilde tasarlanmamıştır. Bu potansiyeli tam olarak kullanabilmek için, donanım, düşük seviyeli firmware ve uygulama yazılımlarının baştan aşağı yeniden tasarlanması gerekiyor.
Stanford Üniversitesi araştırma grubu, sıfır yoğunluğu ve geleneksel iş yüklerini verimli şekilde işleyebilen ilk donanımı geliştirdi. Testlerde, geliştirilen çipin ortalama olarak CPU’ya kıyasla 70 kat daha az enerji tükettiği ve hesaplamaları 8 kat daha hızlı gerçekleştirdiği gözlemlendi. Bu başarıya ulaşmak için, donanım, firmware ve yazılımın tamamı sıfır yoğunluğundan en iyi şekilde yararlanacak şekilde baştan inşa edildi. Araştırmacılar, bunun AI modellerinin enerji verimliliğini artıracak donanım ve model geliştirmenin sadece başlangıcı olduğunu belirtiyor.
Sıfır Yoğunluğu Nedir?
Sinir ağları ve bunlara girdi olarak sağlanan veriler, sayılardan oluşan dizilerle temsil edilir. Bu diziler, tek boyutlu (vektörler), iki boyutlu (matrisler) veya daha yüksek boyutlu (tensörler) olabilir. Sıfır yoğunluğu, bu dizilerin çoğunluğunun sıfır değerinden oluşması durumunu ifade eder. Sıfır oranı %50’nin üzerindeyse, hesaplama yöntemlerinde sıfır yoğunluğuna özgü optimizasyonlar kullanılabilir. Buna karşılık, sıfır oranı düşük olan diziler yoğun (dense) olarak adlandırılır.
Sıfır yoğunluğu doğal olarak oluşabileceği gibi, yapay olarak da indüklenebilir. Örneğin, bir sosyal ağ grafiği doğal olarak sıfır yoğunluğuna sahip olabilir. Grafikte her düğüm bir kişiyi, her kenar ise arkadaşlığı temsil eder. İnsanların çoğu birbirini tanımadığı için, tüm olası kenarları temsil eden bir matris çoğunlukla sıfırlardan oluşacaktır. AI’nın diğer popüler uygulamalarında da benzer şekilde sıfır yoğunluğu gözlemlenebilir.