구글이 올해 봄 출시한 Gemma 4 오픈 모델이 Multi-Token Prediction(MTP) 드라프터 도입으로 AI 생성 속도를 획기적으로 개선했다고 밝혔다. 실험용 MTP 드라프터는Gemini AI의 핵심 기술인 사pekulative decoding(추측 디코딩)을 활용해 미래 토큰을 예측하는 방식으로, 기존 방식보다 훨씬 빠른 AI 응답을 가능하게 한다.
Gemma 4는 구글의 최신 AI 모델 Gemma의 후속작으로,Gemini와 동일한 기술 기반이지만 로컬 환경에 최적화되어 있다.Gemini는 TPU 칩과 대규모 클러스터에서 구동되지만, Gemma 4는 개별 사용자의 하드웨어에서도 구동 가능하도록 설계되었다.고성능 AI 가속기에서는 Gemma 4의 최대 모델을 정밀도로 실행할 수 있으며, 양자화(quantizing)를 통해 소비자용 GPU에서도 구동이 가능하다.
로컬 AI 혁신: 데이터 프라이버시와 접근성 향상
Gemma 4는 사용자가 데이터를 클라우드 AI에 업로드하지 않고도 로컬 장치에서 AI 모델을 직접 실행할 수 있도록 지원한다.이는 데이터 프라이버시 보호와 동시에 로컬 AI 활용의 장벽을 낮추는 데 중점을 두고 있다.또한Gemma 4는 이전 버전과 달리 Apache 2.0 라이선스로 전환되어 개발자 커뮤니티의 참여와 재사용이 용이해졌다.
MTP 드라프터: AI 생성 속도의 새로운 기준
MTP 드라프터는Gemma 4 모델의 AI 생성 프로세스를 혁신하는 핵심 기술이다.기존에는 AI가 한 번에 하나의 토큰을 생성하는 방식이었지만,MTP는 여러 개의 미래 토큰을 동시에 예측하여 생성 속도를 3배까지 가속시킨다.이는Gemini의 TPU 기반 최적화와는 달리, 로컬 환경에서도 높은 효율성을 발휘하도록 설계되었다.
구글은 Gemma 4의 MTP 드라프터가 로컬 AI 모델의 성능 한계를 극복하는 데 기여할 것으로 기대하고 있다.특히Gemma 4는Gemini의 기술적 기반을 공유하지만, 로컬 환경에 맞게 최적화되어 있어 개발자와 연구자들에게 새로운 가능성을 제시할 것으로 보인다.