{"id":1485,"date":"2026-05-26T07:56:51","date_gmt":"2026-05-26T05:56:51","guid":{"rendered":"https:\/\/vittrup-graversen.dk\/?p=1485"},"modified":"2026-06-13T10:40:47","modified_gmt":"2026-06-13T08:40:47","slug":"mercury-2-verdens-hurtigste-reasoning-model-genererer-over-1-000-tokens-i-sekundet-med-diffusionsarkitektur","status":"publish","type":"post","link":"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/26\/mercury-2-verdens-hurtigste-reasoning-model-genererer-over-1-000-tokens-i-sekundet-med-diffusionsarkitektur\/","title":{"rendered":"Mercury 2: Verdens hurtigste reasoning-model genererer over 1.000 tokens i sekundet med diffusionsarkitektur"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Hvad sker der, n\u00e5r man dropper den klassiske transformer-tilgang og i stedet bygger en sprogmodel p\u00e5 diffusionsprincippet? Inception Labs har svaret: <strong>Mercury 2<\/strong>, en reasoning-model der genererer over 1.000 tokens i sekundet &#8211; og stadig leverer kvalitet p\u00e5 niveau med frontier-modeller.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det er tal, der trodser de fleste antagelser om forholdet mellem hastighed og intelligens i store sprogmodeller.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fra sekvens til parallel: Hvad er diffusionsarkitektur i LLM-sammenh\u00e6ng?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">De fleste LLM&#8217;er &#8211; GPT, Claude, Llama, Mistral &#8211; bruger autoregression: modellen genererer \u00e9t token ad gangen, fra venstre mod h\u00f8jre, hvor hvert token afh\u00e6nger af alle tidligere tokens. Det er effektivt og velforst\u00e5et, men det skaber en fundamental flaskehals: r\u00e6kkef\u00f8lgen kan ikke paralleliseres ved generering, kun ved tr\u00e6ning.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mercury 2 tager en anden vej. Inspireret af billedgenerationsmodeller som Stable Diffusion arbejder den med <strong>masked diffusion<\/strong>: alle tokens i output-sekvensen starter som skjulte (maskerede), og modellen itererer gennem flere denoising-trin, hvor den gradvist afsl\u00f8rer de tokens den er mest sikker p\u00e5 &#8211; parallelt, p\u00e5 tv\u00e6rs af hele sekvensen. Det er ikke \u00e9t token ad gangen. Det er mange tokens p\u00e5 \u00e9n gang.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Resultatet er dramatisk: Mercury 2 n\u00e5r <strong>1.009 tokens per sekund<\/strong> p\u00e5 NVIDIA Blackwell GPUs. Mercury Coder Mini-varianten klarer <strong>1.109 tokens per sekund<\/strong> p\u00e5 H100. Til sammenligning leverer Claude 4.5 Haiku omkring 89 tokens\/sek og GPT-5 Mini cirka 71 tokens\/sek. Det er alts\u00e5 10-14 gange hurtigere end de hurtigste traditionelle alternativer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vi har <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/21\/zaya1-8b-diffusion-foerste-moe-diffusionsmodel-med-op-til-77x-hurtigere-inferens\/\">tidligere d\u00e6kket ZAYA1-8B<\/a>, som kombinerede MoE-arkitektur med diffusion og opn\u00e5ede op til 7,7x hurtigere inferens. Mercury 2 tager det langt videre og er nu den f\u00f8rste kommercielt tilg\u00e6ngelige diffusions-reasoning-model i fuld skala.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Benchmarks: Hastighed uden kvalitetstab<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Den \u00e5benlyse kritik af enhver &#8220;superhurtig&#8221; model er, at hastighed typisk k\u00f8bes med ringere output. Inception Labs h\u00e6vder, at Mercury 2 bryder dette m\u00f8nster &#8211; og de tidlige resultater er overbevisende.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Modellen er konkurrencedygtig med frontier reasoning-modeller p\u00e5 standard benchmarks: matematikopgaver (MATH), videnskabelig r\u00e6sonnering (GPQA) og kodningsevalueringer. Inception kalder det &#8220;reasoning-grade quality inside real-time latency budgets&#8221; &#8211; et udtryk der rammer pr\u00e6cist det ingeni\u00f8rm\u00e6ssige problem, mange produktteams st\u00e5r med.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Priss\u00e6tningen er aggressiv: <strong>$0,25 per million input-tokens<\/strong> og <strong>$0,75 per million output-tokens<\/strong>. Til sammenligning koster Claude Haiku $1,00\/M input og $5,00\/M output. Mercury 2 er ikke bare hurtigere &#8211; den er markant billigere p\u00e5 output, og det er output-tokens der driver omkostningerne i de fleste produktionsscenarier.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Kontekstvinduet er 128K tokens med op til 50K tokens per response &#8211; mere end tilstr\u00e6kkeligt til de fleste agentworkflows.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvorn\u00e5r giver det mening &#8211; og hvorn\u00e5r g\u00f8r det ikke?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mercury 2 er designet til <strong>latency-sensitive produktionsscenarier<\/strong>: realtidssamtaler, stemmeinterfaces, interaktiv kodning og multi-step agentloops. Det er netop de kontekster, hvor transformerbaserede modeller skaber frustrerende forsinkelser.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">For agentic AI &#8211; systemer der skal kalde tools, vente p\u00e5 svar og iterere hurtigt &#8211; er hastighed ikke bare komfort. Det er arkitektur. Langsom inferens tvinger systemdesignere til at batche kald, reducere antallet af steps eller acceptere lange svartider. Med 1.000+ tokens\/sek forsvinder mange af disse begr\u00e6nsninger.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Der er dog forbehold. Diffusionsbaserede LLM&#8217;er er stadig relativt nye som arkitektur, og den underliggende forskningslitteratur er tyndere end for transformere. Modellens interne parameterantal er ikke offentliggjort &#8211; Inception fokuserer p\u00e5 ydeevnekarakteristika frem for transparens om modelst\u00f8rrelse, hvilket g\u00f8r det sv\u00e6rere at vurdere effektivitet i rene FLOPS\/token-termer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Og mens hastighed er imponerende, er det ikke altid den vigtigste parameter. For dyb analyse, lange dokumenter eller kompleks flertrinsslumsning konkurrerer Mercury 2 med modeller som har langt bedre dokumenterede egenskaber &#8211; og bredere support i eksisterende frameworks. Apropos frameworks: Mercury 2 er OpenAI API-kompatibel, hvilket g\u00f8r integration relativt smertefrit for teams der allerede bruger det interface.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">For kodegenerering og autocomplete er sagen st\u00e6rkere. Kode har strukturelle m\u00f8nstre der sp\u00e6nder over hele filer &#8211; pr\u00e6cis den type relationer diffusionsmodeller er gode til at modellere parallelt. Det forklarer, hvorfor Mercury Coder-varianterne er fremh\u00e6vet s\u00e6rskilt og n\u00e5r endnu h\u00f8jere tokenhastigheder end basevarianten.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sammenlignet med <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/19\/mistral-medium-3-5-europaeisk-128b-model-tager-kampen-op-mod-gpt-5-5-med-async-kodningsagenter\/\">Mistral Medium 3.5<\/a>, som fokuserer p\u00e5 asynkrone kodningsagenter og Europ\u00e6isk datasovereignty, er Mercury 2 et mere ekstremt valg &#8211; og dermed mere interessant for specifikke use cases frem for generel brug.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvad betyder det for AI-feltet?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mercury 2 er ikke en revolution i den store fort\u00e6lling om AI-kapabilitet. Det er noget mere n\u00f8rdet og m\u00e5ske mere v\u00e6rdifuldt p\u00e5 kort sigt: et bevis p\u00e5, at diffusionsarkitektur kan levere reasoning-kvalitet ved produktionshastigheder. Det udvider det arkitektoniske designrum for LLM-baserede systemer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fem \u00e5r med transformer-dominans har gjort mange til at behandle autoregression som en naturlov. Mercury 2 minder om, at det er et valg &#8211; og at andre valg er mulige.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Om Inception Labs kan fastholde momentumet, skalere arkitekturen og bygge det ecosystemer af tooling og dokumentation der er n\u00f8dvendigt for bred adoption &#8211; det er de rigtige sp\u00f8rgsm\u00e5l. For nu er Mercury 2 det st\u00e6rkeste argument for diffusionsbaserede sprogmodeller i produktion.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Kilder<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.inceptionlabs.ai\/blog\/introducing-mercury-2\" target=\"_blank\" rel=\"noopener\">Introducing Mercury 2<\/a> &#8211; Inception Labs blog, 2026<\/li>\n<li><a href=\"https:\/\/www.businesswire.com\/news\/home\/20260224034496\/en\/Inception-Launches-Mercury-2-the-Fastest-Reasoning-LLM-5x-Faster-Than-Leading-Speed-Optimized-LLMs-with-Dramatically-Lower-Inference-Cost\" target=\"_blank\" rel=\"noopener\">Inception Launches Mercury 2<\/a> &#8211; BusinessWire pressemeddelelse, 24. februar 2026<\/li>\n<li><a href=\"https:\/\/arxiv.org\/abs\/2506.17298\" target=\"_blank\" rel=\"noopener\">Mercury: Ultra-Fast Language Models Based on Diffusion<\/a> &#8211; arXiv, maj 2026<\/li>\n<li><a href=\"https:\/\/thenewstack.io\/inception-labs-mercury-2-diffusion\/\" target=\"_blank\" rel=\"noopener\">Inception Labs Mercury 2 Diffusion LLM Analysis<\/a> &#8211; The New Stack<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Denne artikel er skrevet i samarbejde med AI, og efterf\u00f8lgende redigeret af et rigtigt menneske \ud83d\ude42<\/p>\n\n","protected":false},"excerpt":{"rendered":"<p>Mercury 2 er verdens hurtigste reasoning-LLM med diffusionsarkitektur &#8211; 1.009 tokens\/sek og reasoning-kvalitet til $0,75\/M output tokens fra Inception Labs.<\/p>\n","protected":false},"author":1,"featured_media":1484,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[8],"tags":[31],"class_list":["post-1485","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","tag-language-models"],"acf":[],"_links":{"self":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1485","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/comments?post=1485"}],"version-history":[{"count":2,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1485\/revisions"}],"predecessor-version":[{"id":1569,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1485\/revisions\/1569"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media\/1484"}],"wp:attachment":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media?parent=1485"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/categories?post=1485"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/tags?post=1485"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}