{"id":1553,"date":"2026-06-12T07:10:22","date_gmt":"2026-06-12T05:10:22","guid":{"rendered":"https:\/\/vittrup-graversen.dk\/?p=1553"},"modified":"2026-06-13T10:40:42","modified_gmt":"2026-06-13T08:40:42","slug":"diffusiongemma-google-goer-lokal-tekstgenerering-fire-gange-hurtigere","status":"publish","type":"post","link":"https:\/\/vittrup-graversen.dk\/index.php\/2026\/06\/12\/diffusiongemma-google-goer-lokal-tekstgenerering-fire-gange-hurtigere\/","title":{"rendered":"DiffusionGemma: Google g\u00f8r lokal tekstgenerering fire gange hurtigere"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Google har sendt DiffusionGemma ud som eksperimentel open model, og den interessante del er ikke endnu et Gemma-navn. Det interessante er, at Google fors\u00f8ger at bryde en af de mest sejlivede begr\u00e6nsninger i lokale sprogmodeller: token-for-token-generering, hvor modellen skriver som en gammel skrivemaskine og GPU\u2019en st\u00e5r halvt ubrugt imens.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma er en 26B Mixture of Experts-model, hvor kun 3,8 milliarder parametre er aktive under inferens. Google beskriver den som en tekst-diffusionsmodel, der genererer og forfiner blokke p\u00e5 256 tokens i parallel i stedet for at producere tekst line\u00e6rt fra venstre mod h\u00f8jre. If\u00f8lge Google giver det op til fire gange hurtigere tekstgenerering p\u00e5 dedikerede GPU\u2019er, blandt andet over 1.000 tokens i sekundet p\u00e5 en NVIDIA H100 og over 700 tokens i sekundet p\u00e5 en RTX 5090.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det lyder som benchmark-konfetti, men der er en reel arkitekturpointe her. Hvis du bygger lokale copilots, inline-redigering, kodeudfyldning eller agentv\u00e6rkt\u00f8jer, er f\u00f8rste token og l\u00f8bende responsivitet ofte forskellen mellem et v\u00e6rkt\u00f8j der f\u00f8les levende, og et v\u00e6rkt\u00f8j brugeren lukker efter tre fors\u00f8g. DiffusionGemma peger p\u00e5 en anden inferensprofil end de klassiske autoregressive LLM\u2019er.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">DiffusionGemma flytter flaskehalsen fra hukommelse til beregning<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Traditionelle sprogmodeller er autoregressive. De forudsiger n\u00e6ste token, f\u00f8jer den til konteksten, og gentager. I store cloudmilj\u00f8er kan man skjule meget af ineffektiviteten ved at batch\u2019e mange brugere sammen. P\u00e5 en lokal workstation, hvor \u00e9n bruger sidder med \u00e9n prompt, bliver GPU\u2019en derimod ofte ikke udnyttet s\u00e6rligt effektivt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Googles p\u00e5stand med DiffusionGemma er, at diffusionstilgangen flytter flaskehalsen. I stedet for at hente v\u00e6gte igen og igen for hvert token giver modellen GPU\u2019en en st\u00f8rre parallel opgave. Den starter med et l\u00e6rred af tilf\u00e6ldige placeholder-tokens og raffinerer hele blokken i flere passager. Det minder om billeddiffusion, bare p\u00e5 tekst.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det giver is\u00e6r mening for lokale workloads med lav eller mellem batch-st\u00f8rrelse. Google er selv ret tydelige om begr\u00e6nsningen: Ved h\u00f8j QPS i cloud kan almindelige autoregressive modeller stadig m\u00e6tte hardware effektivt, og DiffusionGemmas fordel kan blive mindre eller dyrere. Det er en vigtig indr\u00f8mmelse. Det her er ikke n\u00f8dvendigvis en ny standard for alle chatbots. Det er et bud p\u00e5 hurtigere interaktive lokale workflows.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvad udviklere faktisk kan bruge det til<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Den mest oplagte anvendelse er ikke lange essays. Det er korte, hurtige, strukturerede interaktioner hvor modellen skal reagere n\u00e6sten \u00f8jeblikkeligt: inline code completion, redigering af tekst, infilling, sm\u00e5 agentbeslutninger, markdown, SVG, matematiske strukturer eller andre opgaver hvor tokens l\u00e6ngere fremme i teksten betyder noget for tokens tidligere i teksten.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Googles developer guide fremh\u00e6ver bidirektionel opm\u00e6rksomhed som en kernefordel. Fordi hele blokken evalueres samlet, kan modellen i princippet rette fejl undervejs i stedet for at sidde fast i en d\u00e5rlig venstre-mod-h\u00f8jre-sekvens. Deres Sudoku-eksempel er n\u00e6sten for p\u00e6dagogisk, men pointen er god: Nogle problemer er ikke naturligt sekventielle. Hvis alle felter i et gitter p\u00e5virker hinanden, er en model der kan se hele l\u00e6rredet p\u00e5 \u00e9n gang et mere naturligt v\u00e6rkt\u00f8j.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">For danske udviklere og IT-arkitekter er den praktiske konklusion: DiffusionGemma b\u00f8r testes som en inferenskomponent, ikke vurderes som en generel GPT-erstatning. Hvis produktet kr\u00e6ver maksimal tekstkvalitet, er standard Gemma 4 if\u00f8lge Google stadig anbefalingen. Hvis produktet kr\u00e6ver lokal hastighed, lav latenstid og korte iterative outputs, er DiffusionGemma langt mere interessant.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Open model er ikke det samme som lav risiko<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma udgives under Apache 2.0, hvilket g\u00f8r den nemmere at eksperimentere med end mange lukkede modeller. Det betyder dog ikke, at man bare skal smide den ind i produktion. Google kalder modellen eksperimentel, og det b\u00f8r man tage alvorligt. Kvalitet, hallucinationer, evalueringsmetoder, sikkerhedspolitikker og driftsegenskaber skal m\u00e5les i den konkrete applikation.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Der er ogs\u00e5 en leverand\u00f8rpolitisk vinkel. Selvom modellen er \u00e5ben, er \u00f8kosystemet rundt om den tungt pr\u00e6get af Google, NVIDIA, Hugging Face, vLLM, MLX og specialiserede GPU-stacks. NVIDIA skriver selv om Day 0-underst\u00f8ttelse og h\u00f8je hastigheder p\u00e5 deres platforme. Det er godt for udviklere, men det betyder ogs\u00e5, at den reelle portabilitet afh\u00e6nger af tooling, quantization, drivere og serving-lag. Open weights alene g\u00f8r ikke en model nem at drifte.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det er samme type tradeoff, som i de seneste indl\u00e6g om <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/06\/08\/gemini-3-5-pro-google-lover-2-millioner-tokens-og-deep-think-men-holder-de-fristen\/\">Gemini 3.5 Pro og lange kontekstvinduer<\/a> og <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/06\/07\/gemma-4-12b-google-fjerner-encoder-taarnet-og-bygger-en-model-til-alt\/\">Gemma 4 12B<\/a>: Modelnyheder bliver f\u00f8rst interessante, n\u00e5r man overs\u00e6tter dem til arkitekturvalg. Hvad koster latenstid? Hvad kan k\u00f8re lokalt? Hvad kr\u00e6ver cloud? Hvilke opgaver taber kvalitet, n\u00e5r man jager hastighed?<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Min vurdering<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma er en relevant nyhed, fordi den angriber et konkret problem: lokal inferens f\u00f8les for ofte langsom og sekventiel. Men den skal ikke l\u00e6ses som \u201cnu er autoregressive modeller d\u00f8de\u201d. Det er for tidligt og for upr\u00e6cist. Den rigtige l\u00e6sning er mere jordn\u00e6r: Vi f\u00e5r flere inferensarkitekturer, og valg af model kommer til at afh\u00e6nge mere af workload end af \u00e9n samlet leaderboard-score.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Hvis du bygger interne AI-v\u00e6rkt\u00f8jer i 2026, b\u00f8r DiffusionGemma ind p\u00e5 testlisten sammen med de almindelige Gemma-modeller og andre lokale LLM\u2019er. Ikke fordi den n\u00f8dvendigvis skriver bedst, men fordi den kan \u00e6ndre brugeroplevelsen i de dele af systemet, hvor hastighed betyder mere end litter\u00e6r kvalitet. Det er en mere nyttig nyhed end endnu en marginal scoreforbedring p\u00e5 et benchmark.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Kilder<\/h2>\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/blog.google\/innovation-and-ai\/technology\/developers-tools\/diffusion-gemma-faster-text-generation\/\" target=\"_blank\" rel=\"noopener\">DiffusionGemma: 4x faster text generation<\/a> &#8211; Google Blog, 10. juni 2026<\/li>\n<li><a href=\"https:\/\/developers.googleblog.com\/en\/diffusiongemma-the-developer-guide\/\" target=\"_blank\" rel=\"noopener\">DiffusionGemma: The Developer Guide<\/a> &#8211; Google Developers Blog, 10. juni 2026<\/li>\n<li><a href=\"https:\/\/developer.nvidia.com\/blog\/run-diffusiongemma-on-nvidia-for-developer-ready-high-throughput-text-generation\/\" target=\"_blank\" rel=\"noopener\">Run DiffusionGemma on NVIDIA for Developer-Ready, High-Throughput Text Generation<\/a> &#8211; NVIDIA Developer Blog, 10. juni 2026<\/li>\n<li><a href=\"https:\/\/arstechnica.com\/ai\/2026\/06\/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost\/\" target=\"_blank\" rel=\"noopener\">Google&#8217;s latest DiffusionGemma open AI model comes with a 4x speed boost<\/a> &#8211; Ars Technica, 10. juni 2026<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Denne artikel er skrevet i samarbejde med AI, og efterf\u00f8lgende redigeret af et rigtigt menneske \ud83d\ude42<\/p>\n\n","protected":false},"excerpt":{"rendered":"<p>DiffusionGemma viser, at lokale LLM workflows handler lige s\u00e5 meget om inferensarkitektur og latenstid som om modelkvalitet.<\/p>\n","protected":false},"author":1,"featured_media":1552,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[8,7],"tags":[175,174,66,31,176],"class_list":["post-1553","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","category-techology","tag-diffusiongemma","tag-gemma","tag-google","tag-language-models","tag-open-models"],"acf":[],"_links":{"self":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1553","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/comments?post=1553"}],"version-history":[{"count":2,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1553\/revisions"}],"predecessor-version":[{"id":1557,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1553\/revisions\/1557"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media\/1552"}],"wp:attachment":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media?parent=1553"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/categories?post=1553"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/tags?post=1553"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}