LLM-modeller dør hurtigere end nogensinde — og det ændrer spillereglerne

I februar 2026 pensionerede OpenAI GPT-4o — den model, mange brugere betragtede som ChatGPTs bedste udgave. Samme uge annoncerede Google, at Gemini 3 Pro lukker 9. marts. Og midt i alt dette dukkede en helt ny type sprogmodel op: en diffusions-LLM, der genererer tekst 10 gange hurtigere end konkurrenterne. Velkommen til et AI-landskab, hvor modeller fødes, lever og dør i et tempo, der gør softwareversionering til en ekstrem-sport.

OpenAI rydder op — og brugerne sørger

Den 13. februar 2026 slukkede OpenAI officielt for GPT-5, GPT-4o, GPT-4.1, GPT-4.1 mini og o4-mini i ChatGPT. Brugerne blev henvist til de nyere GPT-5.1, GPT-5.2 og den helt friske GPT-5.3-Codex, der landede i februar med fokus på kodegenerering. Reaktionerne var blandede: på Reddit sørgede brugere over GPT-4o, som mange oplevede som mere personlig og kreativ end efterfølgerne. CNET rapporterede, at eksperter samtidig var bekymrede over, at ældres modellers “venlighed” krydsede grænsen til sycophancy — altså ukritisk smiger, der kan validere farlige idéer.

Parallelt med oprydningen ramte OpenAI en PR-krise: selskabet indgik en aftale med det amerikanske forsvarsministerium (Department of War), der tillod Pentagon at bruge ChatGPT-teknologi til “ethvert lovligt formål”. Boycot-kampagnen #CancelChatGPT eksploderede, og ifølge Euronews steg antallet af brugere, der afinstallerede ChatGPT, markant. Sam Altman indrømmede senere, at aftalen så “opportunistisk og sjusket” ud, og OpenAI har siden ændret vilkårene, så NSA og andre efterretningstjenester eksplicit er udelukket.

Google: Gemini 3 dør, 3.1 tager over

Google følger samme mønster. Gemini 3 Pro lukkes ned den 9. marts 2026 — blot måneder efter lanceringen. Udviklere har fået seks dages varsel til at migrere til Gemini 3.1 Pro Preview, der blev frigivet 19. februar. Den 26. februar fulgte Nano Banana 2 (baseret på Gemini 3.1 Flash Image-platformen), og 3. marts landede Gemini 3.1 Flash Lite som en letvægtsmodel til udviklere via Google API. Det er et imponerende tempo — men det efterlader udviklere med en konstant migrationsbyrde, der kan være svær at håndtere i produktionsmiljøer.

Anthropic spiller et andet spil

Mens OpenAI og Google kæmper med deprecation-cyklusser og PR-kriser, har Anthropic valgt en anden strategi. Med Claude Opus 4.6 (lanceret 5. februar 2026) introducerede de agent teams og 1 million tokens kontekst. Men det er på den kommercielle front, de virkelig har vundet terræn: Claude er i skrivende stund den mest downloadede gratis-app i Apples App Store — en position, ChatGPT normalt holder.

Nøglen har været en kombination af timing og principfasthed. Anthropic nægtede at fjerne sikkerhedsgarantier for at tilfredsstille Pentagon, hvilket førte til en officiel “supply chain risk”-betegnelse fra den amerikanske regering. Men i offentlighedens øjne blev det en styrke: graffiti uden for Anthropics kontorer i San Francisco roste beslutningen, mens OpenAIs hovedkvarter blev dækket af kritisk kridt-graffiti.

Anthropic har samtidig gjort Claudes hukommelsesfunktion gratis og lanceret et importværktøj, der gør det nemt at flytte samtalehistorik fra ChatGPT og Gemini. Det er et aggressivt træk, der udnytter konkurrenternes svage øjeblikke.

Mercury 2: Diffusion udfordrer autoregression

Den måske mest interessante nyhed i marts 2026 kommer ikke fra de store spillere, men fra startup’en Inception Labs. Deres Mercury 2 er en diffusions-baseret sprogmodel, der genererer over 1.000 tokens per sekund — omkring 10 gange hurtigere end de hurtigste autoregressive modeller som Claude, ChatGPT og Gemini.

Hvor traditionelle sprogmodeller genererer ét token ad gangen (som at skrive ét bogstav ad gangen), bruger Mercury 2 den samme diffusionsteknik, der kendes fra billedgenerering: den starter med støj og forfiner gradvist hele outputtet på én gang. Prisen er konkurrencedygtig — $0,25 per million input-tokens — og modellen er tilgængelig via en OpenAI-kompatibel API med AWS Bedrock-integration på vej.

Er Mercury 2 klar til at erstatte GPT-5.3 eller Claude Opus? Ikke endnu. Kvaliteten matcher ikke de store modeller på komplekse reasoning-opgaver. Men som eWeek bemærker, kan hastigheden være transformativ for AI-agenter, stemmeassistenter og baggrunds-automatisering, hvor latency er vigtigere end rå intelligens. Hvis diffusion kan levere 80% af kvaliteten til 10% af ventetiden, ændrer det regnestykket for mange use cases.

Hvad betyder det for dig?

Tempoet i LLM-landskabet har konsekvenser for alle, der bygger på disse modeller:

Abstraktionslag er nødvendige. Hvis din applikation er hardcoded til GPT-4o eller Gemini 3 Pro, har du et problem. Brug model-agnostiske abstraktioner (som multi-agent frameworks) eller wrapper-libraries, der gør det nemt at skifte model.
Test med flere modeller. Diversificér dine AI-afhængigheder ligesom du diversificerer cloud-udbydere. Hvad sker der med din pipeline, hvis din primære model lukkes med seks dages varsel?
Hold øje med nye arkitekturer. Diffusions-LLM’er som Mercury 2 er i dag niche, men hastigheds-fordelen kan blive en game-changer for specifikke use cases. Vurder, om dine workloads ville drage fordel af hastighed fremfor rå kapacitet.
Følg etik-debatten. OpenAI/Pentagon-sagen viser, at brugere i stigende grad vælger AI-udbydere baseret på værdier, ikke kun teknisk formåen. Det er en faktor, der kan påvirke din virksomheds omdømme.

LLM-landskabet i marts 2026 er defineret af acceleration: hurtigere modeller, hurtigere deprecation, hurtigere skift mellem udbydere. For udviklere og IT-arkitekter handler det om at bygge fleksibilitet ind fra starten — for den model, du vælger i dag, er sandsynligvis pensioneret om seks måneder.

Denne artikel er skrevet i samarbejde med AI, og efterfølgende redigeret af et rigtigt menneske 🙂