Quem aluga GPUs na nuvem pode estar jogando na loteria do silício. Um estudo recente comprova que chips de mesmo modelo — e até da mesma geração — apresentam variações significativas de desempenho quando usados em serviços de computação em nuvem.

A descoberta, feita por pesquisadores do College of William & Mary, Jefferson Lab e Silicon Data, reforça que a aleatoriedade na performance pode transformar um investimento em IA em um jogo de azar. Segundo Carmen Li, fundadora e CEO da Silicon Data, esse fenômeno já era conhecido desde 2022, quando pesquisadores da Universidade de Wisconsin associaram a variação ao desempenho de supercomputadores dependentes de GPUs.

Para medir o impacto real, a equipe realizou 6.800 testes de benchmark em 3.500 GPUs de 11 provedores de nuvem, abrangendo 11 modelos da Nvidia — incluindo o avançado H200 SXM. O teste, chamado SiliconMark, avaliou a capacidade de processamento de modelos de linguagem de grande porte (LLMs) por meio de dois indicadores: desempenho em operações de ponto flutuante de 16 bits (medido em trilhões de operações por segundo) e largura de banda de memória interna (em gigabytes por segundo).

Resultados surpreendentes: até 38% de diferença em chips idênticos

Os dados revelaram variações expressivas:

  • H100 PCIe: até 34,5% de diferença no desempenho computacional entre unidades do mesmo modelo;
  • H200 SXM: até 38% de variação na largura de banda de memória.

A princípio, fatores como refrigeração, configurações dos provedores e desgaste dos chips poderiam explicar as diferenças. No entanto, a análise da Silicon Data apontou que a principal causa está nas próprias unidades — possivelmente devido a problemas de fabricação.

O risco financeiro do 'Silicon Lottery'

Essa aleatoriedade tem consequências práticas e financeiras. Segundo os pesquisadores, existe a possibilidade de um chip mais caro e recente não superar um modelo mais antigo em desempenho. Em um mercado onde o aluguel de GPUs para IA pode custar milhares de dólares por mês, a escolha aleatória pode resultar em prejuízos.

«O mais prático é testar o desempenho da GPU alugada antes de usá-la. Ferramentas como o SiliconMark permitem comparar a performance específica da sua instância com um banco de dados mais amplo, evitando surpresas.»

— Jason Cornick, chefe de infraestrutura da Silicon Data

O que fazer para evitar prejuízos?

Especialistas recomendam algumas medidas para minimizar os riscos:

  • Solicite benchmarks personalizados: antes de fechar contrato, peça ao provedor para rodar testes de desempenho em tempo real;
  • Use ferramentas de terceiros: plataformas como SiliconMark ou MLPerf ajudam a comparar GPUs de diferentes provedores;
  • Priorize provedores transparentes: empresas que oferecem métricas claras de performance reduzem a incerteza;
  • Considere contratos flexíveis: opte por serviços que permitam troca de instâncias caso o desempenho não atenda às expectativas.

Em um setor onde a eficiência é crucial para projetos de IA, a variabilidade de GPUs na nuvem exige atenção redobrada. Afinal, como diz o ditado: «Na loteria do silício, nem sempre o bilhete mais caro é o vencedor.»