同一モデルのGPUであれば性能も均一だと考える人は多いだろう。しかし実際には、同じ型番のGPUでも性能に大きなばらつきがあることが、ウィリアム・アンド・メアリー大学、ジェファーソン研究所、シリコンデータによる共同研究で明らかになった。
シリコンデータのCEO、カルメン・リー氏は「これを『シリコンロッタリー』と呼んでいます」と語る。同社はGPUレンタルの価格動向やクラウドコンピューティングの性能ベンチマークを追跡している。この現象は2022年以降、研究者の間で指摘されていたが、AIクラウド利用者にとってはより深刻な問題となる可能性がある。
クラウドGPUの性能ばらつきを検証
研究チームは、11のクラウドプロバイダーからランダムに選んだ3,500台のGPU(11モデル、NVIDIA製が中心)に対し、6,800回のベンチマークテスト「SiliconMark」を実施した。SiliconMarkは、大規模言語モデル(LLM)の実行能力を測る指標で、16ビット浮動小数点演算性能(TOPS)とメモリ帯域幅(GB/s)を評価する。
その結果、全モデルで性能のばらつきが確認されたが、特にNVIDIA H100 PCIe(259台)では最大34.5%の性能差、H200 SXM(253台)ではメモリ帯域幅で最大38%の差が生じていた。
性能差の原因は製造工程に起因か
性能差の要因として、冷却方法やクラウド事業者の設定、使用履歴などが挙げられるが、シリコンデータの分析では、チップ自体の製造工程に起因する可能性が高いことが判明した。
このばらつきは、コスト面でも大きな影響を与える。高価な最新モデルのGPUをレンタルしても、旧型モデルと同等かそれ以下の性能しか発揮できない可能性があるためだ。
GPUレンタル利用者へのアドバイス
シリコンデータのインフラ責任者、ジェイソン・コニック氏は「最も実用的な対策は、実際にレンタルしたGPUの性能をベンチマークで確認することです」と提言する。「SiliconMarkなどのツールを使えば、自分のインスタンスの性能を広範なデータと比較できます」