O desafio dos modelos de IA cada vez maiores
No universo da inteligência artificial, o tamanho importa — e muito. Embora especialistas alertem sobre os retornos decrescentes no desempenho ao aumentar modelos de linguagem (LLMs), empresas continuam lançando ferramentas cada vez mais robustas. O Meta, por exemplo, recentemente anunciou o Llama 3 com 2 trilhões de parâmetros, um número que impressiona, mas também traz desafios significativos.
À medida que os modelos crescem, suas capacidades aumentam, mas também crescem os custos energéticos e o tempo necessário para processá-los, elevando sua pegada de carbono. Para contornar esse problema, muitas equipes optam por modelos menores ou utilizam números de menor precisão nos parâmetros. No entanto, há uma alternativa promissora: aproveitar os zeros presentes nesses modelos gigantes.
A revolução da esparsidade em IA
A maioria dos parâmetros em modelos de IA — sejam pesos ou ativações — são, na prática, zeros ou valores tão próximos de zero que podem ser tratados como tal sem perder precisão. Essa característica é chamada de esparsidade e representa uma oportunidade para otimizar o processamento.
Em vez de desperdiçar energia somando ou multiplicando zeros, esses cálculos podem ser simplesmente ignorados. Além disso, em vez de armazenar milhares de zeros na memória, basta registrar apenas os parâmetros não nulos. O problema é que os hardwares atuais, como CPUs e GPUs multicore, não foram projetados para explorar essa esparsidade de forma eficiente.
Um chip revolucionário da Universidade de Stanford
Pesquisadores do Stanford University desenvolveram o que acreditam ser o primeiro hardware do mundo capaz de calcular tanto cargas esparsas quanto tradicionais com eficiência. Nos testes, o chip consumiu, em média, 1/70 da energia de uma CPU e realizou os cálculos oito vezes mais rápido.
Para atingir esse resultado, a equipe precisou projetar do zero não apenas o hardware, mas também o firmware de baixo nível e o software, todos otimizados para tirar proveito da esparsidade. Essa inovação pode ser apenas o começo de uma nova geração de modelos e hardwares que tornem a IA mais eficiente e sustentável.
O que é esparsidade?
Redes neurais e os dados que as alimentam são representados como matrizes de números, que podem ser vetores (1D), matrizes (2D) ou tensores (nD). Uma matriz esparsa contém majoritariamente zeros, enquanto uma matriz densa tem poucos zeros em relação ao total de elementos.
A esparsidade pode ser natural ou induzida. Por exemplo, em uma rede social, a maioria das pessoas não é amiga de todas as outras, então a matriz que representa essas conexões será esparsa. Outros exemplos incluem:
- Processamento de linguagem natural, onde muitas palavras em um texto são irrelevantes para o contexto;
- Visão computacional, com imagens que contêm grandes áreas de fundo sem informações úteis;
- Sistemas de recomendação, que analisam milhões de usuários e produtos, mas apenas uma pequena fração das interações é relevante.
Quando mais de 50% dos elementos de uma matriz são zeros, técnicas específicas de computação esparsa podem ser aplicadas para reduzir o tempo e o consumo de energia sem perder precisão.
"A esparsidade é uma das chaves para tornar a IA mais eficiente. Ao invés de lutar contra a natureza esparsa dos dados, podemos projetar hardwares e algoritmos que a aproveitem ao máximo."
— Pesquisadores da Universidade de Stanford
O futuro da IA: eficiência sem sacrificar desempenho
A inovação apresentada pela equipe de Stanford representa um avanço significativo rumo a uma IA mais sustentável e escalável. Ao contrário das abordagens tradicionais, que focam em reduzir o tamanho dos modelos, essa solução permite manter a potência dos LLMs gigantes enquanto minimiza o impacto ambiental.
O próximo passo é integrar essa tecnologia a sistemas comerciais e explorar novas formas de otimizar ainda mais o processamento de modelos de IA. Com hardwares como esse, a fronteira entre modelos poderosos e eficiência energética pode finalmente ser superada.