ZAYA1-8B Diffusion: Første MoE-diffusionsmodel med op til 7,7x hurtigere inferens

2 min read

Hvad sker der, når man tager en velfungerende autoregressive sprogmodel og konverterer den til en diffusionsmodel? Zyphra har netop besvaret det spørgsmål med ZAYA1-8B-Diffusion-Preview – en diffusion sprogmodel der genererer 16 tokens parallelt pr. trin i stedet for ét ad gangen, og som de hævder giver op til 7,7x hurtigere inferens uden kvalitetstab.

Modellen er teknisk interessant af flere grunde: Den er den første Mixture-of-Experts (MoE) diffusionsmodel konverteret fra en eksisterende autoregressive LLM, og hele projektet er bygget oven på AMDs hardware-stack fremfor NVIDIAs GPU’er.

Autoregressive vs. diffusion – hvad er forskellen i praksis?

Traditionelle sprogmodeller som GPT-serien og Llama-familien arbejder autoregressivt: de genererer præcis ét token ad gangen, i strikt rækkefølge fra venstre mod højre. For hvert enkelt token skal modellen loade KV-cachen forfra – det er den grundlæggende memory-bandwidth-flaskehals der begrænser inferenshastigheden.

En discrete diffusion sprogmodel genererer i stedet N tokens som en “kladde” simultant i ét forward pass. Alle tokens i blokken deler samme KV-cache-load. Det skifter flaskehalsen fra memory-bandwidth til compute – og compute kan paralleliseres langt bedre på moderne GPU-arkitekturer.

ZAYA1-8B-Diffusion bruger en blokstørrelse på 16 tokens. Det vil sige at modellen i ét forward pass laver et udkast til de næste 16 tokens simultant, derefter validerer og endeligt samples fra dem.

To samplers, to tradeoffs

Zyphra præsenterer to samplingstrategier med vidt forskellige karakteristika:

  • Lossless sampler: 4,6x hurtigere end autoregressive baseline. Bruger et acceptance-kriterie der sikrer ingen kvalitetstab – afviste tokens resamples via residualdistribution. Matematisk svarer det til ren diffusion uden kompromis.
  • Mixed-logits sampler: 7,7x hurtigere. Midler logits fra både AR-modellen og diffusionsmodellen for at øge acceptance-raten. Zyphra indrømmer eksplicit at der sker “some degradation” i kvalitet – det er altså ikke gratis.

En vigtig nuancering fra Zyphra selv: diffusion inference-stacken er “substantially less optimized than for autoregression.” Det betyder at de reelle speedup-tal i en produktionssetting – mod f.eks. et fuldt optimeret vLLM-setup med PagedAttention – sandsynligvis er lavere end de rapporterede benchmarktal.

TiDAR-metoden og konverteringsprocessen

Konverteringen fra autoregressive ZAYA1-8B til diffusionsmodellen bygger på TiDAR-metoden (arxiv: 2511.08923), der hybridiserer de to tilgange i ét framework med specialdesignede strukturerede attention masks.

Zyphras konkrete implementation bestod af tre faser:

  • 600 milliarder tokens diffusion-konverteringstræning ved 32k kontekst
  • 500 milliarder tokens kontekstudvidelse til 128k tokens native kontekstvindue
  • Diffusion SFT (supervised fine-tuning)

Modellen bruger Zyphras eget Compressed Convolutional Attention-format (CCA), som komprimerer Q/K/V-projektionerne i latent space og giver 2x KV-cache-kompression – hvilket er centralt for at gøre diffusion-block-genereringen effektiv.

Benchmarks og hvad de faktisk måler

ZAYA1-8B-Diffusion viser minimal evalueringsdegradation sammenlignet med det autoregressive udgangspunkt, og faktisk forbedring på LCB-v6 (LiveCodeBench). Den slår Multi-Token Prediction (MTP) og EAGLE3 (spekulativ decoding) i hastighedstest.

Men man skal holde tungen lige i munden: benchmark-tallene er fra et mid-train checkpoint efter 600 milliarder tokens, ikke en færdig model. Modellen har endnu ikke gennemgået reinforcement learning post-training, og evalueringerne er pass@-baserede af den grund. Zyphra er åbne om dette – “Preview” er ikke bare et navn.

Til sammenligning: den underliggende ZAYA1-8B-basismodel scorer 89,6 på HMMT 2025 matematik-benchmark mod Claude Sonnet 4.5’s 88,3, med kun 760M aktive parametre ud af 8,3B totalt – et imponerende effektivitetsforhold der ligner Kimi K2.6’s tilgang, som vi også har skrevet om.

AMD frem for NVIDIA

Et andet aspekt er hardware-vinklen. ZAYA1 er det første projekt der er trænet end-to-end på AMDs fulde stack – MI300x og MI355x GPU’er med AMD’s eget software og netværksinfrastruktur. Hele arkitekturen er co-designet med AMD-hardware i tankerne, ikke blot porteret fra en NVIDIA-baseline.

I en industri der er kritisk afhængig af NVIDIA-hardware er det værd at bemærke. Om det er en strategisk alliance der batter på sigt, eller om det primært er et marketing-argument fra AMD’s side, er svært at sige – men resultaterne eksisterer og er målbare.

Speedup-tallene er da også hardware-specifikke: ~3 block-sized proposals pr. forward pass på MI300x, ~5 på MI355x i bf16-præcision.

Hvad betyder det for udviklere?

Basismodellen ZAYA1-8B er allerede tilgængelig på HuggingFace under Apache 2.0-licens. Diffusion-Preview-varianten kræver Zyphras fork af transformers-biblioteket:

pip install "transformers[dev-torch] @ git+https://github.com/Zyphra/transformers.git@zaya"

Det er ikke produktionsklart – og Zyphra skriver det klart. Men for dem der vil eksperimentere med næste generation af inference-teknikker og ikke er låst til NVIDIA, er det et interessant udgangspunkt.

Diffusion-baseret tekstgenerering har i mange år været en teknisk kuriøsitet der sjældent matchede autoregressive modeller i kvalitet. ZAYA1-8B-Diffusion er det mest troværdige forsøg hidtil på at kombinere diffusionshastighed med autoregressive kvalitet – men “Preview” er et velvalgt ord. Produktionsmod er det ikke endnu.

Den naturlige sammenligning er til andre åbne, effektive modeller – LLM-priserne er faldet markant de seneste måneder, og det driver efterspørgsel efter hurtigere og billigere inferens. Diffusion-tilgangen adresserer præcis det – hvis kvalitetsudfordringerne kan løses i den endelige model.

Kilder

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *