Mercury 2: Verdens hurtigste reasoning-model genererer over 1.000 tokens i sekundet med diffusionsarkitektur

Hvad sker der, når man dropper den klassiske transformer-tilgang og i stedet bygger en sprogmodel på diffusionsprincippet? Inception Labs har svaret: Mercury 2, en reasoning-model der genererer over 1.000 tokens i sekundet – og stadig leverer kvalitet på niveau med frontier-modeller.

Det er tal, der trodser de fleste antagelser om forholdet mellem hastighed og intelligens i store sprogmodeller.

Fra sekvens til parallel: Hvad er diffusionsarkitektur i LLM-sammenhæng?

De fleste LLM’er – GPT, Claude, Llama, Mistral – bruger autoregression: modellen genererer ét token ad gangen, fra venstre mod højre, hvor hvert token afhænger af alle tidligere tokens. Det er effektivt og velforstået, men det skaber en fundamental flaskehals: rækkefølgen kan ikke paralleliseres ved generering, kun ved træning.

Mercury 2 tager en anden vej. Inspireret af billedgenerationsmodeller som Stable Diffusion arbejder den med masked diffusion: alle tokens i output-sekvensen starter som skjulte (maskerede), og modellen itererer gennem flere denoising-trin, hvor den gradvist afslører de tokens den er mest sikker på – parallelt, på tværs af hele sekvensen. Det er ikke ét token ad gangen. Det er mange tokens på én gang.

Resultatet er dramatisk: Mercury 2 når 1.009 tokens per sekund på NVIDIA Blackwell GPUs. Mercury Coder Mini-varianten klarer 1.109 tokens per sekund på H100. Til sammenligning leverer Claude 4.5 Haiku omkring 89 tokens/sek og GPT-5 Mini cirka 71 tokens/sek. Det er altså 10-14 gange hurtigere end de hurtigste traditionelle alternativer.

Vi har tidligere dækket ZAYA1-8B, som kombinerede MoE-arkitektur med diffusion og opnåede op til 7,7x hurtigere inferens. Mercury 2 tager det langt videre og er nu den første kommercielt tilgængelige diffusions-reasoning-model i fuld skala.

Benchmarks: Hastighed uden kvalitetstab

Den åbenlyse kritik af enhver “superhurtig” model er, at hastighed typisk købes med ringere output. Inception Labs hævder, at Mercury 2 bryder dette mønster – og de tidlige resultater er overbevisende.

Modellen er konkurrencedygtig med frontier reasoning-modeller på standard benchmarks: matematikopgaver (MATH), videnskabelig ræsonnering (GPQA) og kodningsevalueringer. Inception kalder det “reasoning-grade quality inside real-time latency budgets” – et udtryk der rammer præcist det ingeniørmæssige problem, mange produktteams står med.

Prissætningen er aggressiv: $0,25 per million input-tokens og $0,75 per million output-tokens. Til sammenligning koster Claude Haiku $1,00/M input og $5,00/M output. Mercury 2 er ikke bare hurtigere – den er markant billigere på output, og det er output-tokens der driver omkostningerne i de fleste produktionsscenarier.

Kontekstvinduet er 128K tokens med op til 50K tokens per response – mere end tilstrækkeligt til de fleste agentworkflows.

Hvornår giver det mening – og hvornår gør det ikke?

Mercury 2 er designet til latency-sensitive produktionsscenarier: realtidssamtaler, stemmeinterfaces, interaktiv kodning og multi-step agentloops. Det er netop de kontekster, hvor transformerbaserede modeller skaber frustrerende forsinkelser.

For agentic AI – systemer der skal kalde tools, vente på svar og iterere hurtigt – er hastighed ikke bare komfort. Det er arkitektur. Langsom inferens tvinger systemdesignere til at batche kald, reducere antallet af steps eller acceptere lange svartider. Med 1.000+ tokens/sek forsvinder mange af disse begrænsninger.

Der er dog forbehold. Diffusionsbaserede LLM’er er stadig relativt nye som arkitektur, og den underliggende forskningslitteratur er tyndere end for transformere. Modellens interne parameterantal er ikke offentliggjort – Inception fokuserer på ydeevnekarakteristika frem for transparens om modelstørrelse, hvilket gør det sværere at vurdere effektivitet i rene FLOPS/token-termer.

Og mens hastighed er imponerende, er det ikke altid den vigtigste parameter. For dyb analyse, lange dokumenter eller kompleks flertrinsslumsning konkurrerer Mercury 2 med modeller som har langt bedre dokumenterede egenskaber – og bredere support i eksisterende frameworks. Apropos frameworks: Mercury 2 er OpenAI API-kompatibel, hvilket gør integration relativt smertefrit for teams der allerede bruger det interface.

For kodegenerering og autocomplete er sagen stærkere. Kode har strukturelle mønstre der spænder over hele filer – præcis den type relationer diffusionsmodeller er gode til at modellere parallelt. Det forklarer, hvorfor Mercury Coder-varianterne er fremhævet særskilt og når endnu højere tokenhastigheder end basevarianten.

Sammenlignet med Mistral Medium 3.5, som fokuserer på asynkrone kodningsagenter og Europæisk datasovereignty, er Mercury 2 et mere ekstremt valg – og dermed mere interessant for specifikke use cases frem for generel brug.

Hvad betyder det for AI-feltet?

Mercury 2 er ikke en revolution i den store fortælling om AI-kapabilitet. Det er noget mere nørdet og måske mere værdifuldt på kort sigt: et bevis på, at diffusionsarkitektur kan levere reasoning-kvalitet ved produktionshastigheder. Det udvider det arkitektoniske designrum for LLM-baserede systemer.

Fem år med transformer-dominans har gjort mange til at behandle autoregression som en naturlov. Mercury 2 minder om, at det er et valg – og at andre valg er mulige.

Om Inception Labs kan fastholde momentumet, skalere arkitekturen og bygge det ecosystemer af tooling og dokumentation der er nødvendigt for bred adoption – det er de rigtige spørgsmål. For nu er Mercury 2 det stærkeste argument for diffusionsbaserede sprogmodeller i produktion.