Google lanserte tidligere i år sine åpne Gemma 4-modeller, som lover høyere ytelse og effektivitet for lokal AI. Nå introduserer selskapet Multi-Token Prediction (MTP) for disse modellene, en eksperimentell teknologi som kan tredoble hastigheten på AI-generering.
MTP fungerer ved at modellen forutser flere fremtidige ord samtidig, i stedet for å generere dem ett og ett. Denne metoden, kjent som spekulativ dekoding, reduserer tiden som kreves for å produsere tekst eller kode betydelig.
Gemma 4 bygger på Google sin toppmoderne AI-teknologi
Gemma 4-modellene er basert på den samme underliggende teknologien som driver Googles toppmoderne AI-modell, Gemini. Mens Gemini er optimalisert for Googles egne TPU-prosessorer i store datasentre, er Gemma 4 designet for å kjøre lokalt på forbrukerens maskinvare.
Selv om en enkelt høyytelses AI-akselerator kan kjøre den største Gemma 4-modellen med full presisjon, tillater kvantisering at modellen også kan kjøres på vanlige forbruker-GPUer. Dette gjør det mulig for utviklere og entusiaster å eksperimentere med avansert AI uten å måtte stole på skytjenester.
Mer fleksibel lisens gir større frihet
Google har endret lisensen for Gemma 4 til Apache 2.0, noe som gir brukerne større frihet sammenlignet med tidligere versjoner. Den nye lisensen tillater videreutvikling og kommersiell bruk uten de tidligere restriksjonene.
Likevel er det fortsatt utfordringer knyttet til maskinvarebegrensninger. De fleste forbrukere har ikke tilgang til kraftige AI-akseleratorer, noe som kan begrense ytelsen til lokale AI-modeller. Her kommer MTP inn som en løsning ved å effektivisere genereringen og redusere belastningen på maskinvaren.