ZAYA1-8B Diffusion: Første MoE-diffusionsmodel med op til 7,7x hurtigere inferens

Hvad sker der, når man tager en velfungerende autoregressive sprogmodel og konverterer den til en diffusionsmodel? Zyphra har netop besvaret det spørgsmål med ZAYA1-8B-Diffusion-Preview – en diffusion sprogmodel der genererer 16 tokens parallelt pr. trin i stedet for ét ad gangen, og som de hævder giver op til 7,7x hurtigere inferens uden kvalitetstab.

Modellen er teknisk interessant af flere grunde: Den er den første Mixture-of-Experts (MoE) diffusionsmodel konverteret fra en eksisterende autoregressive LLM, og hele projektet er bygget oven på AMDs hardware-stack fremfor NVIDIAs GPU’er.

Autoregressive vs. diffusion – hvad er forskellen i praksis?

Traditionelle sprogmodeller som GPT-serien og Llama-familien arbejder autoregressivt: de genererer præcis ét token ad gangen, i strikt rækkefølge fra venstre mod højre. For hvert enkelt token skal modellen loade KV-cachen forfra – det er den grundlæggende memory-bandwidth-flaskehals der begrænser inferenshastigheden.

En discrete diffusion sprogmodel genererer i stedet N tokens som en “kladde” simultant i ét forward pass. Alle tokens i blokken deler samme KV-cache-load. Det skifter flaskehalsen fra memory-bandwidth til compute – og compute kan paralleliseres langt bedre på moderne GPU-arkitekturer.

ZAYA1-8B-Diffusion bruger en blokstørrelse på 16 tokens. Det vil sige at modellen i ét forward pass laver et udkast til de næste 16 tokens simultant, derefter validerer og endeligt samples fra dem.

To samplers, to tradeoffs

Zyphra præsenterer to samplingstrategier med vidt forskellige karakteristika:

Lossless sampler: 4,6x hurtigere end autoregressive baseline. Bruger et acceptance-kriterie der sikrer ingen kvalitetstab – afviste tokens resamples via residualdistribution. Matematisk svarer det til ren diffusion uden kompromis.
Mixed-logits sampler: 7,7x hurtigere. Midler logits fra både AR-modellen og diffusionsmodellen for at øge acceptance-raten. Zyphra indrømmer eksplicit at der sker “some degradation” i kvalitet – det er altså ikke gratis.

En vigtig nuancering fra Zyphra selv: diffusion inference-stacken er “substantially less optimized than for autoregression.” Det betyder at de reelle speedup-tal i en produktionssetting – mod f.eks. et fuldt optimeret vLLM-setup med PagedAttention – sandsynligvis er lavere end de rapporterede benchmarktal.

TiDAR-metoden og konverteringsprocessen

Konverteringen fra autoregressive ZAYA1-8B til diffusionsmodellen bygger på TiDAR-metoden (arxiv: 2511.08923), der hybridiserer de to tilgange i ét framework med specialdesignede strukturerede attention masks.

Zyphras konkrete implementation bestod af tre faser:

600 milliarder tokens diffusion-konverteringstræning ved 32k kontekst
500 milliarder tokens kontekstudvidelse til 128k tokens native kontekstvindue
Diffusion SFT (supervised fine-tuning)

Modellen bruger Zyphras eget Compressed Convolutional Attention-format (CCA), som komprimerer Q/K/V-projektionerne i latent space og giver 2x KV-cache-kompression – hvilket er centralt for at gøre diffusion-block-genereringen effektiv.

Benchmarks og hvad de faktisk måler

ZAYA1-8B-Diffusion viser minimal evalueringsdegradation sammenlignet med det autoregressive udgangspunkt, og faktisk forbedring på LCB-v6 (LiveCodeBench). Den slår Multi-Token Prediction (MTP) og EAGLE3 (spekulativ decoding) i hastighedstest.

Men man skal holde tungen lige i munden: benchmark-tallene er fra et mid-train checkpoint efter 600 milliarder tokens, ikke en færdig model. Modellen har endnu ikke gennemgået reinforcement learning post-training, og evalueringerne er pass@-baserede af den grund. Zyphra er åbne om dette – “Preview” er ikke bare et navn.

Til sammenligning: den underliggende ZAYA1-8B-basismodel scorer 89,6 på HMMT 2025 matematik-benchmark mod Claude Sonnet 4.5’s 88,3, med kun 760M aktive parametre ud af 8,3B totalt – et imponerende effektivitetsforhold der ligner Kimi K2.6’s tilgang, som vi også har skrevet om.

AMD frem for NVIDIA

Et andet aspekt er hardware-vinklen. ZAYA1 er det første projekt der er trænet end-to-end på AMDs fulde stack – MI300x og MI355x GPU’er med AMD’s eget software og netværksinfrastruktur. Hele arkitekturen er co-designet med AMD-hardware i tankerne, ikke blot porteret fra en NVIDIA-baseline.

I en industri der er kritisk afhængig af NVIDIA-hardware er det værd at bemærke. Om det er en strategisk alliance der batter på sigt, eller om det primært er et marketing-argument fra AMD’s side, er svært at sige – men resultaterne eksisterer og er målbare.

Speedup-tallene er da også hardware-specifikke: ~3 block-sized proposals pr. forward pass på MI300x, ~5 på MI355x i bf16-præcision.

Hvad betyder det for udviklere?

Basismodellen ZAYA1-8B er allerede tilgængelig på HuggingFace under Apache 2.0-licens. Diffusion-Preview-varianten kræver Zyphras fork af transformers-biblioteket:

pip install "transformers[dev-torch] @ git+https://github.com/Zyphra/transformers.git@zaya"

Det er ikke produktionsklart – og Zyphra skriver det klart. Men for dem der vil eksperimentere med næste generation af inference-teknikker og ikke er låst til NVIDIA, er det et interessant udgangspunkt.

Diffusion-baseret tekstgenerering har i mange år været en teknisk kuriøsitet der sjældent matchede autoregressive modeller i kvalitet. ZAYA1-8B-Diffusion er det mest troværdige forsøg hidtil på at kombinere diffusionshastighed med autoregressive kvalitet – men “Preview” er et velvalgt ord. Produktionsmod er det ikke endnu.

Den naturlige sammenligning er til andre åbne, effektive modeller – LLM-priserne er faldet markant de seneste måneder, og det driver efterspørgsel efter hurtigere og billigere inferens. Diffusion-tilgangen adresserer præcis det – hvis kvalitetsudfordringerne kan løses i den endelige model.

Kilder

Denne artikel er skrevet i samarbejde med AI, og efterfølgende redigeret af et rigtigt menneske 🙂

ZAYA1-8B Diffusion: Første MoE-diffusionsmodel med op til 7,7x hurtigere inferens

Autoregressive vs. diffusion – hvad er forskellen i praksis?

To samplers, to tradeoffs

TiDAR-metoden og konverteringsprocessen

Benchmarks og hvad de faktisk måler

AMD frem for NVIDIA

Hvad betyder det for udviklere?

Kilder

Colibrì og GLM-5.2: 744B på laptop er stadig kun…

Programmatic tool calling: når LLM-agenten skriver sin egen orkestrering

Private LLM-endpoints: åbne modeller flytter ind i enterprise-driften

Skriv et svar Annuller svar