{"id":1521,"date":"2026-06-07T15:32:51","date_gmt":"2026-06-07T13:32:51","guid":{"rendered":"https:\/\/vittrup-graversen.dk\/?p=1521"},"modified":"2026-06-07T15:32:52","modified_gmt":"2026-06-07T13:32:52","slug":"gemma-4-12b-google-fjerner-encoder-taarnet-og-bygger-en-model-til-alt","status":"publish","type":"post","link":"https:\/\/vittrup-graversen.dk\/index.php\/2026\/06\/07\/gemma-4-12b-google-fjerner-encoder-taarnet-og-bygger-en-model-til-alt\/","title":{"rendered":"Gemma 4 12B: Google fjerner encoder-t\u00e5rnet og bygger \u00e9n model til alt"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Den 3. juni 2026 slap Google DeepMind Gemma 4 12B fri. Modellen med 11,95 milliarder parametre er interessant af \u00e9n central arkitektonisk grund: den har ingen separate encoders. Ikke til billeder. Ikke til lyd. Alle modaliteter \u2013 tekst, billeder, video, lyd \u2013 behandles i den samme decoder-transformer via simple line\u00e6re projektioner.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det lyder som en detalje, men det er et markant brud med m\u00e5den, multimodale modeller normalt er skruet sammen p\u00e5.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvad encoders plejer at g\u00f8re \u2013 og hvad Gemma 4 12B g\u00f8r i stedet<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">De fleste multimodale modeller har et hierarki: en specialiseret encoder oms\u00e6tter billeder eller lyd til en repr\u00e6sentation, som LLM\u2019en derefter kan l\u00e6se. LLaVA bruger CLIP ViT-L som vision encoder \u2013 over 300 millioner parametre i sig selv. Den tidligere Gemma 4 E4B-variant k\u00f8rte med en 150M-parameter vision encoder og en 300M-parameter lyd-conformer. Tilsammen 450 millioner parametre sat af til forbehandling, uden at de bidrager til selve sprogreasoneringen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Gemma 4 12B erstatter det hele med omkring 35 millioner parametre i line\u00e6re projektionslag. Til billeder: r\u00e5billeder opdeles i 48\u00d748-pixel patches, der via en enkelt matrixmultiplikation projiceres direkte ind i modellens indlejringsrum. Rumlig position h\u00e5ndteres af to separate indlejringsmatricer for X og Y-koordinater. Til lyd: 16 kHz-lyd sk\u00e6res i 40 ms-frames \u00e0 640 v\u00e6rdier, der ligeledes projiceres direkte ind \u2013 uden et eneste conformer-lag.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det giver tre praktiske konsekvenser. Lavere latens p\u00e5 multimodal inferens (VentureBeat estimerer FLOPs-besparelsen ved billedbehandling til faktor 11 p\u00e5 h\u00f8j opl\u00f8sning sammenlignet med LLaVA-tilgangen). Simplere arkitektur \u2013 \u00e9t model-artefakt, ingen frosne encoder-checkpoints at holde styr p\u00e5. Og fuld end-to-end fine-tuning i \u00e9t tr\u00e6ningspas, da der ikke er frosne komponenter.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Modellen bruger hybrid attention: lokal sliding window attention med 1024-tokens vindue veksler med globale attention-lag gennem 48 lag i alt. Det s\u00e6tter Gemma 4 12B i stand til at h\u00e5ndtere 262.144 tokens \u2013 256K kontekst \u2013 uden at memory-forbruget eksploderer.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvad benchmark-tallene siger \u2013 og hvad de ikke siger<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Google rapporterer MMLU Pro p\u00e5 77,2%, GPQA Diamond p\u00e5 78,8% og AIME 2026 p\u00e5 77,5%. P\u00e5 DocVQA \u2013 dokumentforst\u00e5else med visuel input \u2013 lander Gemma 4 12B p\u00e5 94,9%. Det overordnede billede er, at 12B-modellen matcher eller overg\u00e5r Gemma 3 27B p\u00e5 tv\u00e6rs af disse benchmarks, mens den kr\u00e6ver halvt s\u00e5 meget hukommelse.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Her er det v\u00e6rd at holde tungen i munden. Samtlige tal er Googles egne. Ingen uafh\u00e6ngig benchmarking-organisation har publiceret et fuldst\u00e6ndigt review pr. 6. juni 2026. Diskussioner p\u00e5 Hacker News peger p\u00e5 svaghed i kodeoutput \u2013 brugere rapporterer syntaksfejl, overfl\u00f8dige lukkende brackets og forkert placerede kommaer. Det harmonerer ikke med de h\u00f8je benchmark-resultater, og det er et m\u00f8nster, vi har set gentagne gange: modeller, der scorer imponerende p\u00e5 standardbenchmarks, men halter i reel kode-generering.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det er ikke et argument imod modellen \u2013 det er et argument for at teste den p\u00e5 din konkrete use case, frem for at tage benchmark-tabellen for gode varer.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hardware-krav og lokal deployment<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Gemma 4 12B kr\u00e6ver roughly 14-16 GB VRAM i fp16-pr\u00e6cision. Med 4-bit kvantisering falder det til ~8 GB \u2013 inden for r\u00e6kkevidde af et standard RTX 3080\/4070-setup. Med Ollama er det \u00e9n kommando:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>ollama pull gemma4:12b\nollama run gemma4:12b<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">llama.cpp underst\u00f8tter Q4_K_M-kvantisering og CPU-offload for systemer, der mangler VRAM. vLLM er det rigtige valg til produktion med multi-user concurrent load og paged attention. LM Studio har modellen klar til download til dem, der foretr\u00e6kker et GUI.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Licensen er Apache 2.0 \u2013 ubegr\u00e6nset kommerciel brug, ingen royalty. Det adskiller sig fra de tidlige <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/04\/30\/google-gemma-4-under-apache-2-0-den-mest-kapable-open-source-model-er-nu-helt-fri\/\">Gemma 4-varianter, der blev frigivet under Apache 2.0<\/a>, og som satte en ny standard for hvad Google er villig til at give fri adgang til. Gemma 4 12B f\u00f8lger den linje.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">V\u00e6gtene er tilg\u00e6ngelige p\u00e5 Hugging Face under <a href=\"https:\/\/huggingface.co\/google\/gemma-4-12B-it\" target=\"_blank\" rel=\"noopener\">google\/gemma-4-12B-it<\/a>. B\u00e5de en instruktionstunet og en base-version er frigivet. For dem, der vil fine-tune, underst\u00f8tter Unsloth end-to-end tr\u00e6ning uden frosne komponenter \u2013 noget, der ikke var muligt med encoder-baserede arkitekturer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sammenholdt med <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/04\/05\/google-gemma-4-endelig-en-open-source-ai-model-der-kan-koere-lokalt-og-du-maa-bruge-den-til-alt\/\">den f\u00f8rste generation af Gemma 4-modeller<\/a>, der introducerede lokal AI-inferens som en reel mulighed p\u00e5 forbrugerhardware, er 12B-varianten det n\u00e6ste logiske skridt: mere kapabel, lavere overhead, og en arkitektur, der er nemmere at vedligeholde og fine-tune for teams med begr\u00e6nsede ML-ops-ressourcer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Om encoder-fri multimodal arkitektur bliver normen fremover, afh\u00e6nger af, om fordelene holder i takt med, at modellerne skaleres op. Forel\u00f8big er Gemma 4 12B det mest konkrete argument for tilgangen \u2013 og en model, der er v\u00e6rd at teste, hvis du k\u00f8rer lokale multimodale pipelines.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Kilder<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/blog.google\/innovation-and-ai\/technology\/developers-tools\/introducing-gemma-4-12b\/\" target=\"_blank\" rel=\"noopener\">Google Blog: Introducing Gemma 4 12B<\/a> \u2013 Google DeepMind, 3. juni 2026<\/li>\n<li><a href=\"https:\/\/venturebeat.com\/technology\/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop\/\" target=\"_blank\" rel=\"noopener\">Google\u2019s new open source Gemma 4 12B analyzes audio, video and runs entirely locally<\/a> \u2013 VentureBeat, 3. juni 2026<\/li>\n<li><a href=\"https:\/\/huggingface.co\/google\/gemma-4-12B-it\" target=\"_blank\" rel=\"noopener\">google\/gemma-4-12B-it model card<\/a> \u2013 Hugging Face<\/li>\n<li><a href=\"https:\/\/news.ycombinator.com\/item?id=48385906\" target=\"_blank\" rel=\"noopener\">Hacker News: Gemma 4 12B diskussion<\/a> \u2013 Hacker News, juni 2026<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Gemma 4 12B fra Google DeepMind introducerer encoder-fri multimodal AI &#8211; tekst, billeder, lyd og video i \u00e9n model p\u00e5 under 16 GB VRAM. Apache 2.0.<\/p>\n","protected":false},"author":1,"featured_media":1520,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[8],"tags":[31],"class_list":["post-1521","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","tag-language-models"],"acf":[],"_links":{"self":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1521","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/comments?post=1521"}],"version-history":[{"count":1,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1521\/revisions"}],"predecessor-version":[{"id":1526,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1521\/revisions\/1526"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media\/1520"}],"wp:attachment":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media?parent=1521"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/categories?post=1521"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/tags?post=1521"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}