SubQ: Den første kommercielle subkvadratsiske LLM håndterer 12 millioner tokens til en femtedel af prisen

Transformer-arkitekturen har domineret AI-feltet siden 2017. Men i maj 2026 tog et nyt selskab det første reelle skridt væk fra den kvadratiske opmærksomhedsmekanisme og ud i kommerciel produktion. SubQ – det første kommercielt tilgængelige LLM bygget på en fuldt subkvadratsisk sparse-attention arkitektur – er nu tilgængeligt via API med støtte fra 29 millioner dollars i seed-funding.

Problemet med kvadratisk opmærksomhed

Den klassiske transformer-arkitektur har et grundlæggende skaléringsproblem: self-attention-mekanismen er O(n²) i forhold til kontekstlængden. Det betyder at hvis du fordobler mængden af tokens i din kontekst, firedobler du beregningsomkostningerne. For modeller med 128.000 tokens er det til at betale. For modeller med 1 million tokens begynder det at gøre ondt. For modeller med 12 millioner tokens – som SubQ tilbyder – bliver det simpelthen uoverkommeligt med traditionel arkitektur.

SubQ’s løsning er en sparse-attention tilgang der reducerer kompleksiteten til O(n). Ifølge selskabet reducerer det attention-beregningerne med op til 1.000 gange ved 12 millioner tokens sammenlignet med en traditionel transformer. Det er ikke blot en marginal optimering – det er en strukturel ændring i hvad long-context modeller koster at køre.

Hvad SubQ faktisk præsterer

Det interessante er at SubQ ikke er et rent forskningsprojekt. Selskabet – grundlagt af forskere fra Meta, Google, Oxford, Cambridge og Brigham Young University – lancerede offentligt i maj 2026 med en API der kan bruges i dag. Benchmarks ser overraskende stærke ud for en ny arkitektur:

SWE-Bench Verified: 81,8 procent – reel software engineering på GitHub issues
RULER @ 128K: 95,6 procent – long-context præcision
MRCR v2 med 8 nåle ved 1 million tokens: 86,2 procent

SWE-Bench-tallet er særligt bemærkelsesværdigt. 81,8 procent placerer SubQ i nærheden af de bedste frontier-modeller på kodeopgaver – og det på en arkitektur der ikke er en transformer. Hastigheden er 150 tokens per sekund, og prisen er angivet til cirka en femtedel af sammenlignelige frontier-modeller. Det er et afgørende konkurrenceparameter for long-context arbejdsbelastninger, hvor omkostningerne ellers løber hurtigt op.

SubQ lancerer med to produkter: en standard API med streaming og tool use, samt et Code-produkt der integrerer direkte med kodningsagenter som Claude, Codex og Cursor. Valget om at prioritere long-context fra start er bevidst – repository-analyse på tværs af et helt codebase, multi-dokument research og juridisk dokumentgennemgang er scenarier hvor 12 millioner tokens er en reel fordel, og hvor en femtedel af prisen betyder noget på bundlinjen.

Subkvadratsisk arkitektur: Ikke første forsøg – men første kommercielle produkt

Det er værd at notere at subkvadratsiske arkitekturer ikke er et nyt koncept. Mamba, RWKV, Hyena og BASED er alle forsøg på præcis det samme alternativ til transformer-attention. Problemet har historisk set været at disse modeller præsterer fint på kortere kontekster men konsekvent falder bagud i konkurrencen med transformers, når de presses på standardbenchmarks ved større skala.

SubQ hævder at have krydset den grænse. Men det er klart at vi stadig venter på uafhængig validering. De benchmarktal selskabet fremviser er egne tal – og som analytikere på WhatLLM.org bemærker, mangler vi endnu tredjepartsbekræftelse ved de ekstremt lange kontekstlængder. Det ændrer dog ikke ved at tilgangen er strukturelt interessant. Hvis subkvadratsisk attention faktisk kan matche transformer-kvalitet ved lange kontekster, er det et skift der på sigt kan ændre hvad det koster at drive production-LLM-systemer med store datamængder.

Det minder om udviklingen vi allerede har set med diffusionsbaserede tilgange til sprogmodeller. Som Mercury 2 demonstrerede med sin diffusionsarkitektur der genererer over 1.000 tokens per sekund, er transformer-alternativerne begyndt at konkurrere seriøst på performance – ikke kun på papir. Og som ZAYA1-8B viste med sin MoE-diffusionstilgang, kan ikke-autoregressiv inferens levere markant speedup under de rette betingelser.

For udviklere og arkitekter er det praktiske spørgsmål enkelt: hold øje med uafhængige test af SubQ i de kommende måneder. Hvis MRCR- og RULER-tallene holder ved tredjepartsvalidering, er SubQ’s subkvadratsisk LLM-tilgang et reelt alternativ til frontier-transformers på long-context opgaver – og til en pris der giver mening i produktion.