{"id":1463,"date":"2026-05-21T07:55:04","date_gmt":"2026-05-21T05:55:04","guid":{"rendered":"https:\/\/vittrup-graversen.dk\/?p=1463"},"modified":"2026-06-13T10:40:49","modified_gmt":"2026-06-13T08:40:49","slug":"zaya1-8b-diffusion-foerste-moe-diffusionsmodel-med-op-til-77x-hurtigere-inferens","status":"publish","type":"post","link":"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/21\/zaya1-8b-diffusion-foerste-moe-diffusionsmodel-med-op-til-77x-hurtigere-inferens\/","title":{"rendered":"ZAYA1-8B Diffusion: F\u00f8rste MoE-diffusionsmodel med op til 7,7x hurtigere inferens"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Hvad sker der, n\u00e5r man tager en velfungerende autoregressive sprogmodel og konverterer den til en diffusionsmodel? Zyphra har netop besvaret det sp\u00f8rgsm\u00e5l med ZAYA1-8B-Diffusion-Preview &#8211; en diffusion sprogmodel der genererer 16 tokens parallelt pr. trin i stedet for \u00e9t ad gangen, og som de h\u00e6vder giver op til 7,7x hurtigere inferens uden kvalitetstab.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Modellen er teknisk interessant af flere grunde: Den er den f\u00f8rste <a href=\"https:\/\/en.wikipedia.org\/wiki\/Mixture_of_experts\" target=\"_blank\" rel=\"noopener\">Mixture-of-Experts (MoE)<\/a> diffusionsmodel konverteret fra en eksisterende autoregressive LLM, og hele projektet er bygget oven p\u00e5 AMDs hardware-stack fremfor NVIDIAs GPU&#8217;er.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Autoregressive vs. diffusion &#8211; hvad er forskellen i praksis?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Traditionelle sprogmodeller som GPT-serien og Llama-familien arbejder autoregressivt: de genererer pr\u00e6cis \u00e9t token ad gangen, i strikt r\u00e6kkef\u00f8lge fra venstre mod h\u00f8jre. For hvert enkelt token skal modellen loade KV-cachen forfra &#8211; det er den grundl\u00e6ggende memory-bandwidth-flaskehals der begr\u00e6nser inferenshastigheden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En <strong>discrete diffusion sprogmodel<\/strong> genererer i stedet N tokens som en &#8220;kladde&#8221; simultant i \u00e9t forward pass. Alle tokens i blokken deler samme KV-cache-load. Det skifter flaskehalsen fra memory-bandwidth til compute &#8211; og compute kan paralleliseres langt bedre p\u00e5 moderne GPU-arkitekturer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">ZAYA1-8B-Diffusion bruger en blokst\u00f8rrelse p\u00e5 16 tokens. Det vil sige at modellen i \u00e9t forward pass laver et udkast til de n\u00e6ste 16 tokens simultant, derefter validerer og endeligt samples fra dem.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">To samplers, to tradeoffs<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Zyphra pr\u00e6senterer to samplingstrategier med vidt forskellige karakteristika:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Lossless sampler:<\/strong> 4,6x hurtigere end autoregressive baseline. Bruger et acceptance-kriterie der sikrer ingen kvalitetstab &#8211; afviste tokens resamples via residualdistribution. Matematisk svarer det til ren diffusion uden kompromis.<\/li>\n<li><strong>Mixed-logits sampler:<\/strong> 7,7x hurtigere. Midler logits fra b\u00e5de AR-modellen og diffusionsmodellen for at \u00f8ge acceptance-raten. Zyphra indr\u00f8mmer eksplicit at der sker &#8220;some degradation&#8221; i kvalitet &#8211; det er alts\u00e5 ikke gratis.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">En vigtig nuancering fra Zyphra selv: diffusion inference-stacken er &#8220;substantially less optimized than for autoregression.&#8221; Det betyder at de reelle speedup-tal i en produktionssetting &#8211; mod f.eks. et fuldt optimeret vLLM-setup med PagedAttention &#8211; sandsynligvis er lavere end de rapporterede benchmarktal.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">TiDAR-metoden og konverteringsprocessen<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Konverteringen fra autoregressive ZAYA1-8B til diffusionsmodellen bygger p\u00e5 <a href=\"https:\/\/arxiv.org\/abs\/2511.08923\" target=\"_blank\" rel=\"noopener\">TiDAR-metoden (arxiv: 2511.08923)<\/a>, der hybridiserer de to tilgange i \u00e9t framework med specialdesignede strukturerede attention masks.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Zyphras konkrete implementation bestod af tre faser:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>600 milliarder tokens diffusion-konverteringstr\u00e6ning ved 32k kontekst<\/li>\n<li>500 milliarder tokens kontekstudvidelse til 128k tokens native kontekstvindue<\/li>\n<li>Diffusion SFT (supervised fine-tuning)<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Modellen bruger Zyphras eget Compressed Convolutional Attention-format (CCA), som komprimerer Q\/K\/V-projektionerne i latent space og giver 2x KV-cache-kompression &#8211; hvilket er centralt for at g\u00f8re diffusion-block-genereringen effektiv.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Benchmarks og hvad de faktisk m\u00e5ler<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">ZAYA1-8B-Diffusion viser minimal evalueringsdegradation sammenlignet med det autoregressive udgangspunkt, og faktisk <em>forbedring<\/em> p\u00e5 LCB-v6 (LiveCodeBench). Den sl\u00e5r Multi-Token Prediction (MTP) og EAGLE3 (spekulativ decoding) i hastighedstest.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Men man skal holde tungen lige i munden: benchmark-tallene er fra et <strong>mid-train checkpoint<\/strong> efter 600 milliarder tokens, ikke en f\u00e6rdig model. Modellen har endnu ikke gennemg\u00e5et reinforcement learning post-training, og evalueringerne er pass@-baserede af den grund. Zyphra er \u00e5bne om dette &#8211; &#8220;Preview&#8221; er ikke bare et navn.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Til sammenligning: den underliggende ZAYA1-8B-basismodel scorer 89,6 p\u00e5 HMMT 2025 matematik-benchmark mod Claude Sonnet 4.5&#8217;s 88,3, med kun 760M aktive parametre ud af 8,3B totalt &#8211; et imponerende effektivitetsforhold der ligner <a href=\"https:\/\/vittrup-graversen.dk\/?p=1405\">Kimi K2.6&#8217;s tilgang<\/a>, som vi ogs\u00e5 har skrevet om.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">AMD frem for NVIDIA<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Et andet aspekt er hardware-vinklen. ZAYA1 er det f\u00f8rste projekt der er tr\u00e6net end-to-end p\u00e5 AMDs fulde stack &#8211; MI300x og MI355x GPU&#8217;er med AMD&#8217;s eget software og netv\u00e6rksinfrastruktur. Hele arkitekturen er co-designet med AMD-hardware i tankerne, ikke blot porteret fra en NVIDIA-baseline.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">I en industri der er kritisk afh\u00e6ngig af NVIDIA-hardware er det v\u00e6rd at bem\u00e6rke. Om det er en strategisk alliance der batter p\u00e5 sigt, eller om det prim\u00e6rt er et marketing-argument fra AMD&#8217;s side, er sv\u00e6rt at sige &#8211; men resultaterne eksisterer og er m\u00e5lbare.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Speedup-tallene er da ogs\u00e5 hardware-specifikke: ~3 block-sized proposals pr. forward pass p\u00e5 MI300x, ~5 p\u00e5 MI355x i bf16-pr\u00e6cision.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvad betyder det for udviklere?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Basismodellen ZAYA1-8B er allerede tilg\u00e6ngelig p\u00e5 HuggingFace under Apache 2.0-licens. Diffusion-Preview-varianten kr\u00e6ver Zyphras fork af transformers-biblioteket:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>pip install \"transformers[dev-torch] @ git+https:\/\/github.com\/Zyphra\/transformers.git@zaya\"<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Det er ikke produktionsklart &#8211; og Zyphra skriver det klart. Men for dem der vil eksperimentere med n\u00e6ste generation af inference-teknikker og ikke er l\u00e5st til NVIDIA, er det et interessant udgangspunkt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Diffusion-baseret tekstgenerering har i mange \u00e5r v\u00e6ret en teknisk kuri\u00f8sitet der sj\u00e6ldent matchede autoregressive modeller i kvalitet. ZAYA1-8B-Diffusion er det mest trov\u00e6rdige fors\u00f8g hidtil p\u00e5 at kombinere diffusionshastighed med autoregressive kvalitet &#8211; men &#8220;Preview&#8221; er et velvalgt ord. Produktionsmod er det ikke endnu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Den naturlige sammenligning er til andre \u00e5bne, effektive modeller &#8211; <a href=\"https:\/\/vittrup-graversen.dk\/?p=1323\">LLM-priserne er faldet markant<\/a> de seneste m\u00e5neder, og det driver eftersp\u00f8rgsel efter hurtigere og billigere inferens. Diffusion-tilgangen adresserer pr\u00e6cis det &#8211; hvis kvalitetsudfordringerne kan l\u00f8ses i den endelige model.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Kilder<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.zyphra.com\/post\/zaya1-8b-diffusion-preview\" target=\"_blank\" rel=\"noopener\">ZAYA1-8B-Diffusion-Preview &#8211; Zyphra officiel blog<\/a><\/li>\n<li><a href=\"https:\/\/www.marktechpost.com\/2026\/05\/15\/zyphra-releases-zaya1-8b-diffusion-preview-the-first-moe-diffusion-model-converted-from-an-autoregressive-llm-with-up-to-7-7x-speedup\/\" target=\"_blank\" rel=\"noopener\">MarkTechPost: Zyphra releases ZAYA1-8B-Diffusion-Preview, May 15, 2026<\/a><\/li>\n<li><a href=\"https:\/\/arxiv.org\/abs\/2511.08923\" target=\"_blank\" rel=\"noopener\">TiDAR paper (arxiv:2511.08923)<\/a><\/li>\n<li><a href=\"https:\/\/arxiv.org\/abs\/2510.04476\" target=\"_blank\" rel=\"noopener\">CCA (Compressed Convolutional Attention) paper (arxiv:2510.04476)<\/a><\/li>\n<li><a href=\"https:\/\/huggingface.co\/Zyphra\/ZAYA1-base\" target=\"_blank\" rel=\"noopener\">ZAYA1-base p\u00e5 HuggingFace (Apache 2.0)<\/a><\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Denne artikel er skrevet i samarbejde med AI, og efterf\u00f8lgende redigeret af et rigtigt menneske \ud83d\ude42<\/p>\n\n","protected":false},"excerpt":{"rendered":"<p>Zyphra frigiver ZAYA1-8B-Diffusion-Preview &#8211; den f\u00f8rste MoE-baserede diffusion sprogmodel konverteret fra autoregressive LLM, med op til 7,7x hurtigere inferens p\u00e5 AMD-hardware.<\/p>\n","protected":false},"author":1,"featured_media":1462,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[8],"tags":[31,116],"class_list":["post-1463","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","tag-language-models","tag-open-source"],"acf":[],"_links":{"self":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1463","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/comments?post=1463"}],"version-history":[{"count":2,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1463\/revisions"}],"predecessor-version":[{"id":1572,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1463\/revisions\/1572"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media\/1462"}],"wp:attachment":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media?parent=1463"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/categories?post=1463"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/tags?post=1463"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}