{"id":1485,"date":"2026-05-26T07:56:51","date_gmt":"2026-05-26T05:56:51","guid":{"rendered":"https:\/\/vittrup-graversen.dk\/?p=1485"},"modified":"2026-05-26T07:56:52","modified_gmt":"2026-05-26T05:56:52","slug":"mercury-2-verdens-hurtigste-reasoning-model-genererer-over-1-000-tokens-i-sekundet-med-diffusionsarkitektur","status":"publish","type":"post","link":"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/26\/mercury-2-verdens-hurtigste-reasoning-model-genererer-over-1-000-tokens-i-sekundet-med-diffusionsarkitektur\/","title":{"rendered":"Mercury 2: Verdens hurtigste reasoning-model genererer over 1.000 tokens i sekundet med diffusionsarkitektur"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Hvad sker der, n\u00e5r man dropper den klassiske transformer-tilgang og i stedet bygger en sprogmodel p\u00e5 diffusionsprincippet? Inception Labs har svaret: <strong>Mercury 2<\/strong>, en reasoning-model der genererer over 1.000 tokens i sekundet \u2013 og stadig leverer kvalitet p\u00e5 niveau med frontier-modeller.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det er tal, der trodser de fleste antagelser om forholdet mellem hastighed og intelligens i store sprogmodeller.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fra sekvens til parallel: Hvad er diffusionsarkitektur i LLM-sammenh\u00e6ng?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">De fleste LLM\u2019er \u2013 GPT, Claude, Llama, Mistral \u2013 bruger autoregression: modellen genererer \u00e9t token ad gangen, fra venstre mod h\u00f8jre, hvor hvert token afh\u00e6nger af alle tidligere tokens. Det er effektivt og velforst\u00e5et, men det skaber en fundamental flaskehals: r\u00e6kkef\u00f8lgen kan ikke paralleliseres ved generering, kun ved tr\u00e6ning.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mercury 2 tager en anden vej. Inspireret af billedgenerationsmodeller som Stable Diffusion arbejder den med <strong>masked diffusion<\/strong>: alle tokens i output-sekvensen starter som skjulte (maskerede), og modellen itererer gennem flere denoising-trin, hvor den gradvist afsl\u00f8rer de tokens den er mest sikker p\u00e5 \u2013 parallelt, p\u00e5 tv\u00e6rs af hele sekvensen. Det er ikke \u00e9t token ad gangen. Det er mange tokens p\u00e5 \u00e9n gang.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Resultatet er dramatisk: Mercury 2 n\u00e5r <strong>1.009 tokens per sekund<\/strong> p\u00e5 NVIDIA Blackwell GPUs. Mercury Coder Mini-varianten klarer <strong>1.109 tokens per sekund<\/strong> p\u00e5 H100. Til sammenligning leverer Claude 4.5 Haiku omkring 89 tokens\/sek og GPT-5 Mini cirka 71 tokens\/sek. Det er alts\u00e5 10-14 gange hurtigere end de hurtigste traditionelle alternativer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vi har <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/21\/zaya1-8b-diffusion-foerste-moe-diffusionsmodel-med-op-til-77x-hurtigere-inferens\/\">tidligere d\u00e6kket ZAYA1-8B<\/a>, som kombinerede MoE-arkitektur med diffusion og opn\u00e5ede op til 7,7x hurtigere inferens. Mercury 2 tager det langt videre og er nu den f\u00f8rste kommercielt tilg\u00e6ngelige diffusions-reasoning-model i fuld skala.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Benchmarks: Hastighed uden kvalitetstab<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Den \u00e5benlyse kritik af enhver \u201csuperhurtig\u201d model er, at hastighed typisk k\u00f8bes med ringere output. Inception Labs h\u00e6vder, at Mercury 2 bryder dette m\u00f8nster \u2013 og de tidlige resultater er overbevisende.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Modellen er konkurrencedygtig med frontier reasoning-modeller p\u00e5 standard benchmarks: matematikopgaver (MATH), videnskabelig r\u00e6sonnering (GPQA) og kodningsevalueringer. Inception kalder det \u201creasoning-grade quality inside real-time latency budgets\u201d \u2013 et udtryk der rammer pr\u00e6cist det ingeni\u00f8rm\u00e6ssige problem, mange produktteams st\u00e5r med.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Priss\u00e6tningen er aggressiv: <strong>$0,25 per million input-tokens<\/strong> og <strong>$0,75 per million output-tokens<\/strong>. Til sammenligning koster Claude Haiku $1,00\/M input og $5,00\/M output. Mercury 2 er ikke bare hurtigere \u2013 den er markant billigere p\u00e5 output, og det er output-tokens der driver omkostningerne i de fleste produktionsscenarier.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Kontekstvinduet er 128K tokens med op til 50K tokens per response \u2013 mere end tilstr\u00e6kkeligt til de fleste agentworkflows.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvorn\u00e5r giver det mening \u2013 og hvorn\u00e5r g\u00f8r det ikke?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mercury 2 er designet til <strong>latency-sensitive produktionsscenarier<\/strong>: realtidssamtaler, stemmeinterfaces, interaktiv kodning og multi-step agentloops. Det er netop de kontekster, hvor transformerbaserede modeller skaber frustrerende forsinkelser.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">For agentic AI \u2013 systemer der skal kalde tools, vente p\u00e5 svar og iterere hurtigt \u2013 er hastighed ikke bare komfort. Det er arkitektur. Langsom inferens tvinger systemdesignere til at batche kald, reducere antallet af steps eller acceptere lange svartider. Med 1.000+ tokens\/sek forsvinder mange af disse begr\u00e6nsninger.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Der er dog forbehold. Diffusionsbaserede LLM\u2019er er stadig relativt nye som arkitektur, og den underliggende forskningslitteratur er tyndere end for transformere. Modellens interne parameterantal er ikke offentliggjort \u2013 Inception fokuserer p\u00e5 ydeevnekarakteristika frem for transparens om modelst\u00f8rrelse, hvilket g\u00f8r det sv\u00e6rere at vurdere effektivitet i rene FLOPS\/token-termer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Og mens hastighed er imponerende, er det ikke altid den vigtigste parameter. For dyb analyse, lange dokumenter eller kompleks flertrinsslumsning konkurrerer Mercury 2 med modeller som har langt bedre dokumenterede egenskaber \u2013 og bredere support i eksisterende frameworks. Apropos frameworks: Mercury 2 er OpenAI API-kompatibel, hvilket g\u00f8r integration relativt smertefrit for teams der allerede bruger det interface.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">For kodegenerering og autocomplete er sagen st\u00e6rkere. Kode har strukturelle m\u00f8nstre der sp\u00e6nder over hele filer \u2013 pr\u00e6cis den type relationer diffusionsmodeller er gode til at modellere parallelt. Det forklarer, hvorfor Mercury Coder-varianterne er fremh\u00e6vet s\u00e6rskilt og n\u00e5r endnu h\u00f8jere tokenhastigheder end basevarianten.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sammenlignet med <a href=\"https:\/\/vittrup-graversen.dk\/index.php\/2026\/05\/19\/mistral-medium-3-5-europaeisk-128b-model-tager-kampen-op-mod-gpt-5-5-med-async-kodningsagenter\/\">Mistral Medium 3.5<\/a>, som fokuserer p\u00e5 asynkrone kodningsagenter og Europ\u00e6isk datasovereignty, er Mercury 2 et mere ekstremt valg \u2013 og dermed mere interessant for specifikke use cases frem for generel brug.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hvad betyder det for AI-feltet?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mercury 2 er ikke en revolution i den store fort\u00e6lling om AI-kapabilitet. Det er noget mere n\u00f8rdet og m\u00e5ske mere v\u00e6rdifuldt p\u00e5 kort sigt: et bevis p\u00e5, at diffusionsarkitektur kan levere reasoning-kvalitet ved produktionshastigheder. Det udvider det arkitektoniske designrum for LLM-baserede systemer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fem \u00e5r med transformer-dominans har gjort mange til at behandle autoregression som en naturlov. Mercury 2 minder om, at det er et valg \u2013 og at andre valg er mulige.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Om Inception Labs kan fastholde momentumet, skalere arkitekturen og bygge det ecosystemer af tooling og dokumentation der er n\u00f8dvendigt for bred adoption \u2013 det er de rigtige sp\u00f8rgsm\u00e5l. For nu er Mercury 2 det st\u00e6rkeste argument for diffusionsbaserede sprogmodeller i produktion.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Kilder<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.inceptionlabs.ai\/blog\/introducing-mercury-2\" target=\"_blank\" rel=\"noopener\">Introducing Mercury 2<\/a> \u2013 Inception Labs blog, 2026<\/li>\n<li><a href=\"https:\/\/www.businesswire.com\/news\/home\/20260224034496\/en\/Inception-Launches-Mercury-2-the-Fastest-Reasoning-LLM-5x-Faster-Than-Leading-Speed-Optimized-LLMs-with-Dramatically-Lower-Inference-Cost\" target=\"_blank\" rel=\"noopener\">Inception Launches Mercury 2<\/a> \u2013 BusinessWire pressemeddelelse, 24. februar 2026<\/li>\n<li><a href=\"https:\/\/arxiv.org\/abs\/2506.17298\" target=\"_blank\" rel=\"noopener\">Mercury: Ultra-Fast Language Models Based on Diffusion<\/a> \u2013 arXiv, maj 2026<\/li>\n<li><a href=\"https:\/\/thenewstack.io\/inception-labs-mercury-2-diffusion\/\" target=\"_blank\" rel=\"noopener\">Inception Labs Mercury 2 Diffusion LLM Analysis<\/a> \u2013 The New Stack<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Mercury 2 er verdens hurtigste reasoning-LLM med diffusionsarkitektur &#8211; 1.009 tokens\/sek og reasoning-kvalitet til $0,75\/M output tokens fra Inception Labs.<\/p>\n","protected":false},"author":1,"featured_media":1484,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[8],"tags":[31],"class_list":["post-1485","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai","tag-language-models"],"acf":[],"_links":{"self":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1485","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/comments?post=1485"}],"version-history":[{"count":1,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1485\/revisions"}],"predecessor-version":[{"id":1486,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/posts\/1485\/revisions\/1486"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media\/1484"}],"wp:attachment":[{"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/media?parent=1485"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/categories?post=1485"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vittrup-graversen.dk\/index.php\/wp-json\/wp\/v2\/tags?post=1485"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}