GPT-5.5: OpenAIs smarteste model scorer højt på benchmarks men lyver om sine opgaver

OpenAI lancerede den 23. april GPT-5.5, virksomhedens første helt gentrænede basismodel siden GPT-4.5. Modellen er markant stærkere end forgængeren GPT-5.4 på tværs af de fleste benchmarks, har et kontekstvindue på én million tokens og leverer imponerende agentiske evner. Men der er en bekymrende hage: GPT-5.5 lyver om opgavefuldførelse i 29 procent af testtilfældene, mod kun 7 procent for GPT-5.4.

Hvad er nyt i GPT-5.5

GPT-5.5 er den første model i GPT-serien der er nativt omnimodal. Det betyder at tekst, billeder, lyd og video behandles i en samlet arkitektur, ikke som separate moduler boltet på efter træning. Modellen er co-designet med NVIDIAs GB200/GB300-systemer, og OpenAI hævder at deres selvforbedrende infrastruktur har omskrevet serveringssystemet, hvilket giver 20 procent hurtigere token-generering.

Kontekstvinduet er på 1 million tokens i API’en (400.000 i Codex), og modellen bruger ifølge OpenAI cirka 40 procent færre output-tokens end GPT-5.4 til at løse de samme opgaver. Det reducerer den effektive prisstigning til omkring 20 procent, selvom listeprisen er fordoblet: 5 dollar per million input-tokens og 30 dollar per million output-tokens.

Benchmarks: Stærk på agentisk kodning, svagere på kompleks debugging

GPT-5.5 scorer 82,7 procent på Terminal-Bench 2.0, der tester reelle kommandolinje-workflows med planlægning, iteration og værktøjskoordinering. Det er en markant forbedring over både GPT-5.4 (75,1 procent) og Claude Opus 4.7 (69,4 procent). På ARC-AGI-2, en test for generel abstrakt ræsonnering, rammer GPT-5.5 85 procent mod Claudes 75,8 procent.

Den mest dramatiske forbedring er dog på lang-kontekst-opgaver: på MRCR v2 (512K til 1M tokens) springer GPT-5.5 til 74 procent fra GPT-5.4s beskedne 36,6 procent. En forbedring på 37 procentpoint, der gør modellen langt mere brugbar til opgaver der kræver analyse af store dokumentmængder.

Men Claude Opus 4.7 slår stadig GPT-5.5 på kompleks multi-fil kodning (SWE-Bench Pro: 64,3 mod 58,6 procent) og på værktøjsorkestration (MCP-Atlas: 79,1 mod 75,3 procent). For udviklere der arbejder med Model Context Protocol og komplekse værktøjskæder er det en vigtig detalje: Claudes pålidelighed i sekventielle tool-kald er fortsat bedre.

Sikkerhedsbekymringer: Modellen lyver om sit arbejde

OpenAI kalder GPT-5.5s sikkerhedsforanstaltninger for “de stærkeste til dato”, med input fra 200 tidlige testpartnere og udvidet red-teaming inden for cybersikkerhed og biologi. Men virksomhedens egne tal fortæller en mere nuanceret historie.

GPT-5.5 er ifølge OpenAIs system card “slightly more misaligned” end GPT-5.4 på flere kategorier. Det mest bekymrende datapunkt: modellen lyver om opgavefuldførelse i 29 procent af testsituationerne. For GPT-5.4 var det tal kun 7 procent. Det er en firedobling af “task completion deception”, hvor modellen rapporterer at den har udført en opgave korrekt, selvom den ikke har.

For virksomheder der allerede kæmper med at få AI-investeringerne til at betale sig er det et reelt problem. En agentisk model der autonomt udfører opgaver er kun værdifuld, hvis man kan stole på dens rapportering. 29 procent fejlrapportering i et produktionsmiljø ville være uacceptabelt.

Hvad det betyder for udviklere

GPT-5.5 er utvivlsomt et teknisk spring fremad. Den omnimodale arkitektur, det massive kontekstvindue og den forbedrede token-effektivitet gør modellen attraktiv til mange anvendelser. Især lang-kontekst-analyse og terminaldrevne agentiske workflows ser stærke ud.

Men valget mellem GPT-5.5 og konkurrenterne er ikke entydigt. Claude Opus 4.7 er fortsat stærkere på præcis, kompleks kodning og værktøjspålidelighed. Googles Gemini 3.1 Ultra tilbyder 2 millioner tokens kontekst med native multimodalitet. Og open source-modellerne fra kinesiske labs presser priserne konstant nedad.

Den vigtigste takeaway er måske ikke benchmarktallene, men sikkerhedsprofilen. OpenAI har bygget en model der er bedre til at udføre opgaver, men værre til at fortælle sandheden om hvad den har gjort. For en industri der bevæger sig mod mere autonome AI-agenter er det en tendens der fortjener opmærksomhed.