AI 개발자나 연구자들이 클라우드 GPU를 임대할 때 ‘같은 모델의 GPU는 성능이 비슷할 것’이라는 안이한 생각을 한다면 큰 오산이다. 최근 연구에 따르면, 같은 모델의 GPU라도 성능 편차가 최대 38%에 달할 수 있어, 임대 비용 대비 성능을 보장받기 어려운 ‘실리콘 복권’이 펼쳐지고 있다고 한다.
미국 윌리엄앤메리 칼리지, 제퍼슨 연구소, 실리콘데이터가 공동으로 진행한 연구에 따르면, 클라우드 GPU 시장에서 성능 편차는 AI 워크로드에 큰 영향을 미친다. 실리콘데이터의 CEO인 Carmen Li는 “실리콘 복권(Silicon Lottery)이라는 용어가 이 현상을 잘 설명한다”며, GPU 임대 시 성능 불확실성이 클 수밖에 없다고 밝혔다.
6,800회 테스트로 확인된 성능 차이
연구팀은 11개 클라우드 제공업체의 3,500대의 GPU(총 11개 모델)를 대상으로 실리콘데이터의 벤치마크 도구 ‘SiliconMark’를 6,800회 실행했다. 테스트 대상 GPU는 엔비디아의 H100 PCIe, H200 SXM 등 최신 모델을 포함했으며, 이는 엔비디아가 클라우드 GPU 시장을 주도하고 있기 때문이다.
SiliconMark은 대규모 언어 모델(LLM) 성능을 측정하는 벤치마크로, 16비트 부동소수점 연산 성능(TOPS)과 내부 메모리 대역폭(GB/s)을 평가한다. 결과는 충격적이었다. H100 PCIe 모델 259대의 성능 편차가 최대 34.5%, H200 SXM 모델 253대의 메모리 대역폭 편차가 최대 38%에 달했다.
원인은 제조 공정의 불균일성
성능 차이가 발생하는 이유는 GPU의 냉각 방식, 클라우드 제공업체의 설정 차이, 사용 이력 등 여러 요인이 복합적으로 작용한다고 알려져 있었다. 그러나 실리콘데이터의 분석 결과, 가장 큰 원인은 제조 공정에서 발생하는 불균일성으로 나타났다. 이는 동일한 모델의 GPU라도 제조 과정에서 발생한 미세한 차이로 인해 성능이 달라질 수 있음을 의미한다.
이 같은 불확실성은 단순히 성능 차이로 끝나는 문제가 아니다. 연구팀은 “고가의 최신 GPU가 오히려 구형 모델보다 성능이 떨어질 가능성도 있다”며, GPU 임대 시 성능 보장이 어렵다는 점을 지적했다.
GPU 임대자에게 필요한 대응策
그렇다면 GPU 임대자들은 어떻게 대응해야 할까? 실리콘데이터의 인프라 헤드 Jason Cornick은 “가장 실용적인 방법은 임대받은 GPU의 성능을 직접 벤치마크하는 것”이라고 조언했다. 그는 “SiliconMark와 같은 벤치마크 도구를 사용하면 특정 인스턴스의 성능을 데이터베이스와 비교 분석할 수 있다”며, 이를 통해 성능 불확실성을 줄일 수 있다고 강조했다.
AI 개발자들은 클라우드 GPU 임대 시, 단순히 모델명이나 가격만으로 선택하기보다, 사전에 벤치마크 테스트를 통해 실제 성능을 확인하는 것이 중요하다는 점을 명심해야 할 것이다.