GPT-5.5 vs Claude Opus 4.7: Hvem vinder den agentiske kodekamp?

OpenAI og Anthropic har sat hinanden skakmat på kalenderen. Claude Opus 4.7 landede 16. april. En uge senere, 23. april 2026, slap OpenAI GPT-5.5 ud i ChatGPT og Codex. Det er første gang siden GPT-4.5, at OpenAI har gen-trænet basismodellen helt fra bunden, og de markedsfører den ikke som en chatbot, men som en agent der skal kunne betjene din computer. Spørgsmålet for udviklere og IT-folk er ikke længere hvilken model der er “klogest” på en leaderboard. Det er hvilken model der klarer det arbejde, du faktisk skal have gjort.

Kort version: GPT-5.5 er designet til at tænke, planlægge og klikke over flere timer ad gangen. Opus 4.7 er den mere stålsatte ingeniør når det handler om at løse rigtige bugs i en rigtig kodebase. Benchmarks bekræfter vinklen fra begge lejre, og forskellen i output-pris på 17 procent gør valget mindre trivielt end det ser ud.

Benchmarks: to modeller, to forskellige styrker

Tallene er offentliggjort af begge leverandører og krydsbekræftet af Artificial Analysis og tredjeparts-bencheres. Her er de vigtigste:

Terminal-Bench 2.0 (planlægning og tool-brug i shellen): GPT-5.5 tager 82,7 procent. Opus 4.7 står på 69,4. Forspringet er vokset fra 5,7 point under GPT-5.4 til hele 13,3 point nu.
SWE-Bench Pro (rigtige GitHub-issues): Opus 4.7 scorer 64,3 procent mod 58,6 for GPT-5.5. Det er Anthropics hjemmebane, og de fører med 5,7 point.
MCP-Atlas (orkestrering af MCP-servere): Opus 4.7 vinder knebent med 79,1 mod 75,3.
OSWorld-Verified (computer use i rigtige desktop-miljøer): 78,7 vs 78,0. Reelt uafgjort.
OpenAI MRCR v2 på 512K-1M tokens: GPT-5.5 retriever 74 procent korrekt. Opus 4.7 kollapser til 32,2. I de længste kontekster er det ikke engang samme liga.
GDPval (OpenAIs egen økonomisk-værdi-test af 44 vidensarbejder-jobs): 84,9 mod 80,3.
FrontierMath Tier 4: GPT-5.5 rammer 35,4 procent, Opus 4.7 lander på 22,9.
GPQA Diamond (videnskabelig ræsonnering): Opus 4.7 fører 94,2 mod 93,6. Statistisk støj.

Artificial Analysis’ samlede Intelligence Index (xhigh) giver GPT-5.5 60 point, tre point over både Opus 4.7 og Gemini 3.1 Pro. Det er den første gang OpenAI har ligget øverst på det index siden sent i 2025. Men indekset gemmer det faktum at Opus 4.7 har nogle meget konkrete vinkler hvor den slår igennem, især MCP-workflows og store refaktoreringer.

Hvad er “computer use” egentlig

OpenAIs salgsargument for GPT-5.5 er at den ikke bare skriver kode, den bruger computeren. Kombineret med Codex kan den se skærmen, klikke, skrive, navigere i UI’er og bevæge sig mellem værktøjer uden at du skal holde hånden på hver eneste shift+enter. Det er samme retning som Anthropic har bevæget sig siden Claude 3.5 Sonnet fik computer use tilbage i oktober 2024, men OpenAI har ventet til benchmarks var på plads før de trykkede på udgivelsesknappen.

Praktisk betyder det at GPT-5.5 kan køre multi-step opgaver: åben et regneark, hent data fra en hjemmeside, ryd op i kolonnerne, send rapporten som e-mail. Det lyder banalt indtil du prøver at få en model til at fastholde kontekst gennem 45 minutters navigation uden at glemme hvad den startede med. Den 74 procent score på 1-million-token MRCR er faktisk afgørende her. Opus 4.7 falder gennem gulvet ved de kontekst-dybder, og det er synligt i lange agent-traces.

Til gengæld: hvis dit agent-arbejde handler om at orkestrere MCP-servere, lave præcise code patches eller refaktorere en stor pull request, er Opus 4.7 stadig den model Cursor-brugere, JetBrains AI Assistant og store dele af Claude Code-økosystemet vælger. Den har også det vi kalder et produktions-track record: den har kørt på tværs af AWS Bedrock, Google Vertex og Microsoft Foundry siden dag et, hvilket gør enterprise-procurement mindre smertefuld. Jeg skrev mere om Opus 4.7’s styrker og begrænsninger her.

Pris, tilgængelighed og det lange løb

Begge modeller koster 5 dollar per million input-tokens. På output er der forskel: GPT-5.5 tager 30 dollar, Opus 4.7 tager 25. For agenter der producerer lange outputs (lange kodeændringer, længere rapporter, flere iterationer) løber det hurtigt op. Ved 17 procent prisforskel kan Anthropic faktisk argumentere for at Opus 4.7 er den billigere frontier-model når du regner en rigtig workload igennem. Omvendt: hvis du sparer to timer på en enkelt opgave fordi GPT-5.5 ikke mister tråden i lange kontekster, er prisspørgsmålet irrelevant.

Distributionen er også værd at bide mærke i. GPT-5.5 er rullet ud til Plus, Pro, Business og Enterprise med det samme, og API-adgang følger “soon” ifølge OpenAI. Det er hurtig penetration i ChatGPT-basen, men langsommere i enterprise-clouds. Opus 4.7 var tilgængelig på samtlige tre store hyperscalers fra dag et. I Europa betyder det noget: vi har stadig en ægte problemstilling omkring hvilke modeller EU-kunder må bruge uden regulatorisk hovedpine.

Det er også værd at bemærke at GPT-5.5 kommer kun uger efter GPT-5.4. OpenAI er åbenlyst gået fra “major version når det er klar” til løbende inkrementel forbedring. Anthropic har gjort det samme (Opus 4.7 efter 4.6 efter 4.5 i halvårligt tempo). For udviklere betyder det: planlæg integrationer med version-pinning, ellers står du med utilsigtede adfærdsændringer.

Hvad skal du faktisk vælge

Simpel tommelfingerregel efter en uges test med begge:

GPT-5.5: Command-line agenter, computer use, nye features fra scratch, lange research-sessions, multi-document ræsonnering. Når opgaven kræver at modellen holder fokus gennem 40+ minutters arbejde.
Opus 4.7: Større refaktoreringer i eksisterende kodebaser, MCP-tungt agent-arbejde, code review, Cursor/Claude Code-workflows, EU-compliance via hyperscalers. Når opgaven er kirurgi i kode der findes i forvejen.

Det pudsige er at ingen af de to har “vundet” i den forstand man før forestillede sig. De har specialiseret sig. GPT-5.5 er en generalist med fokus på action over tid, Opus 4.7 er en specialist i kode-sager. Hvis du kun har råd til én leverandør-relation, er Opus 4.7 nok det sikreste valg i dag, fordi agenten stadig er afhængig af at kunne redigere eksisterende systemer. Hvis du kan have begge, så gør det. Sendte du en tyk refaktor-opgave til GPT-5.5 i går, burde du sende den samme til Opus 4.7 i dag og sammenligne. Det er den eneste måde at vide hvilken der passer til din kode.

En sidste observation: OpenAI skrev selv om “a new class of intelligence” i deres annoncering, men til dobbelt API-pris for outputs i forhold til GPT-5.4. Den slags sprog skal man læse kritisk. Modellerne er bedre. De er ikke en ny klasse. De er den samme transformer-arkitektur trænet med bedre data, bedre RL og mere compute. Det interessante ligger i det praktiske: at OpenAI nu seriøst satser på agenten som produkt, og at Anthropic har svaret ved at gøre deres eksisterende agent-tooling endnu bedre. Hele branchen rykker i samme retning, og udviklerne er dem der står tilbage med ansvaret for at holde styr på hvilken model der løser hvilken opgave bedst.