57% af AI-benchmarks er kontamineret — og det påvirker dine beslutninger

Når virksomheder vælger hvilken sprogmodel de skal satse på, kigger de typisk på benchmark-resultater. Men hvad nu hvis de tal, der styrer millionbeslutninger, ikke afspejler virkeligheden? Det er præcis det problem, en ny analyse sætter fokus på: AI benchmarks kontamineret i et omfang, der burde bekymre alle der bruger dem som beslutningsgrundlag.

En ny undersøgelse fra analysefirmaet NE2NE har netop afsløret, at 57,3% af de mest anvendte AI-benchmarks er kontaminerede — altså at modellerne har været eksponeret for testspørgsmålene under træning. Det svarer til at tage en eksamen, hvor du allerede har set svarene.

Hvad betyder benchmark-kontaminering?

Kontaminering opstår når en sprogmodel under træning direkte eller indirekte har set de opgaver, den senere bliver testet på. Det kan ske på flere måder:

Direkte eksponering: Benchmark-datasæt havner i træningsdata
Indirekte læk: Community-reproduktioner af testsæt cirkulerer på nettet
Derivater: Materialer der ligner testopgaverne tæt nok til at give en fordel

NE2NE brugte en cloze-deletion-metode til at undersøge om modellerne kunne forudsige manglende ord fra benchmark-kontekst — en teknik baseret på etableret akademisk forskning fra bl.a. Brown et al. (2020) og Deng et al. (2023).

Omfanget er massivt

Undersøgelsen dækkede 4.590 model-spørgsmåls-par på tværs af 17 frontier-modeller og 18 offentlige benchmarks. Med en kontamineringsrate på 57,3% er konklusionen klar: mange af de benchmarks, branchen har brugt som objektive målestokke, er ikke længere rene mål for generalisering. Problemet med AI benchmarks kontamineret er ikke en kanttilfælde — det er normen.

Hvorfor det rammer udviklere og virksomheder

Benchmark-scores er blevet en slags valuta i AI-verdenen. De bruges til:

Vendor-marketing og konkurrencemæssig positionering
Virksomheders indkøbsbeslutninger og risikovurderinger
Offentlige leaderboards der driver mediedækning

Hvis disse tal er oppustede, risikerer organisationer at undervurdere fejlrater i produktion — uanset om det drejer sig om kundeservice, kodningsassistance, dokumenthåndtering eller compliance-analyse. Det kan betyde uventede omkostninger til fejlrettelse og øget behov for menneskelig kontrol.

“Vores branche læner sig tungt op ad benchmark-ranglister til at sammenligne modeller, men benchmarks var aldrig tænkt som statiske scoretavler,” siger Steven Pappadakes, NE2NE’s CEO. “Hvis kontaminering er til stede, træffer organisationer måske beslutninger med stor rækkevidde baseret på metrikker, der ikke længere afspejler virkelig kapacitet.”

Hvad kan man gøre?

Forskerne peger på flere mulige løsninger:

Rutinemæssige overlap-tjek mellem træningsdata og evalueringssæt
Bedre dokumentation af datakilder fra modeludbydere
Private testsæt og forseglede evalueringer
Dynamisk opgavegenerering der gør det sværere at “lære til testen”
Uafhængig replikation af resultater

Mange frontier-modeller mangler stadig offentligt dokumenterede kontamineringsanalyser — og det gør det svært for tredjeparter at skelne ægte fremskridt fra kendskab til testindhold.

Hvad det betyder for virksomheder der vælger AI-platform

For virksomheder der er i gang med at evaluere og vælge AI-modeller til produktion, er budskabet klart: stol ikke blindt på benchmark-tabeller. En model der topper en leaderboard, har muligvis opnået sin position delvist fordi den har “set eksamen på forhånd” — ikke fordi den er bedst til din specifikke opgave.

Praktiske råd til indkøb af AI-teknologi:

Kør interne PoC’er på jeres egne data og use cases — ikke kun på leverandørens benchmark-resultater
Brug dynamiske evalueringer der genereres løbende og ikke er offentligt tilgængelige på forhånd
Mål på produktionsfejl, ikke på MMLU-scorer — det er i prod, fejlene koster penge
Diversificer evalueringsgrundlaget med uafhængige, domænespecifikke tests

Et imponerende benchmark-resultat er ikke nødvendigvis et bevis på, at modellen performer bedre i praksis. I lyset af NE2NE’s analyse — omtalt af ITBrief — kan det lige så vel være et tegn på, at den har genkendt testindhold fra træning.

Denne artikel er skrevet i samarbejde med AI, og efterfølgende redigeret af et rigtigt menneske 🙂