Gemma 4 12B: Google fjerner encoder-tårnet og bygger én model til alt

Den 3. juni 2026 slap Google DeepMind Gemma 4 12B fri. Modellen med 11,95 milliarder parametre er interessant af én central arkitektonisk grund: den har ingen separate encoders. Ikke til billeder. Ikke til lyd. Alle modaliteter – tekst, billeder, video, lyd – behandles i den samme decoder-transformer via simple lineære projektioner.

Det lyder som en detalje, men det er et markant brud med måden, multimodale modeller normalt er skruet sammen på.

Hvad encoders plejer at gøre – og hvad Gemma 4 12B gør i stedet

De fleste multimodale modeller har et hierarki: en specialiseret encoder omsætter billeder eller lyd til en repræsentation, som LLM’en derefter kan læse. LLaVA bruger CLIP ViT-L som vision encoder – over 300 millioner parametre i sig selv. Den tidligere Gemma 4 E4B-variant kørte med en 150M-parameter vision encoder og en 300M-parameter lyd-conformer. Tilsammen 450 millioner parametre sat af til forbehandling, uden at de bidrager til selve sprogreasoneringen.

Gemma 4 12B erstatter det hele med omkring 35 millioner parametre i lineære projektionslag. Til billeder: råbilleder opdeles i 48×48-pixel patches, der via en enkelt matrixmultiplikation projiceres direkte ind i modellens indlejringsrum. Rumlig position håndteres af to separate indlejringsmatricer for X og Y-koordinater. Til lyd: 16 kHz-lyd skæres i 40 ms-frames à 640 værdier, der ligeledes projiceres direkte ind – uden et eneste conformer-lag.

Det giver tre praktiske konsekvenser. Lavere latens på multimodal inferens (VentureBeat estimerer FLOPs-besparelsen ved billedbehandling til faktor 11 på høj opløsning sammenlignet med LLaVA-tilgangen). Simplere arkitektur – ét model-artefakt, ingen frosne encoder-checkpoints at holde styr på. Og fuld end-to-end fine-tuning i ét træningspas, da der ikke er frosne komponenter.

Modellen bruger hybrid attention: lokal sliding window attention med 1024-tokens vindue veksler med globale attention-lag gennem 48 lag i alt. Det sætter Gemma 4 12B i stand til at håndtere 262.144 tokens – 256K kontekst – uden at memory-forbruget eksploderer.

Hvad benchmark-tallene siger – og hvad de ikke siger

Google rapporterer MMLU Pro på 77,2%, GPQA Diamond på 78,8% og AIME 2026 på 77,5%. På DocVQA – dokumentforståelse med visuel input – lander Gemma 4 12B på 94,9%. Det overordnede billede er, at 12B-modellen matcher eller overgår Gemma 3 27B på tværs af disse benchmarks, mens den kræver halvt så meget hukommelse.

Her er det værd at holde tungen i munden. Samtlige tal er Googles egne. Ingen uafhængig benchmarking-organisation har publiceret et fuldstændigt review pr. 6. juni 2026. Diskussioner på Hacker News peger på svaghed i kodeoutput – brugere rapporterer syntaksfejl, overflødige lukkende brackets og forkert placerede kommaer. Det harmonerer ikke med de høje benchmark-resultater, og det er et mønster, vi har set gentagne gange: modeller, der scorer imponerende på standardbenchmarks, men halter i reel kode-generering.

Det er ikke et argument imod modellen – det er et argument for at teste den på din konkrete use case, frem for at tage benchmark-tabellen for gode varer.

Hardware-krav og lokal deployment

Gemma 4 12B kræver roughly 14-16 GB VRAM i fp16-præcision. Med 4-bit kvantisering falder det til ~8 GB – inden for rækkevidde af et standard RTX 3080/4070-setup. Med Ollama er det én kommando:

ollama pull gemma4:12b
ollama run gemma4:12b

llama.cpp understøtter Q4_K_M-kvantisering og CPU-offload for systemer, der mangler VRAM. vLLM er det rigtige valg til produktion med multi-user concurrent load og paged attention. LM Studio har modellen klar til download til dem, der foretrækker et GUI.

Licensen er Apache 2.0 – ubegrænset kommerciel brug, ingen royalty. Det adskiller sig fra de tidlige Gemma 4-varianter, der blev frigivet under Apache 2.0, og som satte en ny standard for hvad Google er villig til at give fri adgang til. Gemma 4 12B følger den linje.

Vægtene er tilgængelige på Hugging Face under google/gemma-4-12B-it. Både en instruktionstunet og en base-version er frigivet. For dem, der vil fine-tune, understøtter Unsloth end-to-end træning uden frosne komponenter – noget, der ikke var muligt med encoder-baserede arkitekturer.

Sammenholdt med den første generation af Gemma 4-modeller, der introducerede lokal AI-inferens som en reel mulighed på forbrugerhardware, er 12B-varianten det næste logiske skridt: mere kapabel, lavere overhead, og en arkitektur, der er nemmere at vedligeholde og fine-tune for teams med begrænsede ML-ops-ressourcer.

Om encoder-fri multimodal arkitektur bliver normen fremover, afhænger af, om fordelene holder i takt med, at modellerne skaleres op. Foreløbig er Gemma 4 12B det mest konkrete argument for tilgangen – og en model, der er værd at teste, hvis du kører lokale multimodale pipelines.