Qwen3.7-Max: Alibabas AI kørte autonomt i 35 timer og optimerede chips den aldrig havde set

Den 21. maj 2026 præsenterede Alibaba Cloud på deres summit i Hangzhou det, de kalder en ny standard for agentiske AI-systemer: Qwen3.7-Max. Modellen er ikke åben kildekode – en bevidst kursændring fra tidligere Qwen-versioner – og den har allerede demonstreret noget, der i praksis er svært at ignorere. I et test-run kørte den uafbrudt i 35 timer, optimerede software til et stykke hardware den aldrig havde set under træning, og leverede en 10-dobbelt hastighedsforbedring. Det er ikke en chatbot. Det er et stykke infrastruktur.

35 timer, 1.158 tool calls – hvad skete der egentlig?

Opgaven var at optimere en attention-kernel på Alibabas egne T-Head ZW-M890 PPU-chips – en hardwarearkitektur der slet ikke eksisterer i modellens træningsdata. Qwen3.7-Max fik adgang til en isoleret server med hardwaren og arbejdede derfra fuldstændig autonomt uden menneskelig indblanding.

I løbet af de 35 timer udførte modellen 1.158 distinkte tool calls og kørte 432 kernel-evalueringer. Den diagnosticerede og rettede kompileringsfejl på egen hånd og endte med en 10x geometrisk middel-speedup på den ukendte arkitektur. Kinesiske konkurrenter klarede sig ringere: GLM-5.1 nåede 7,3x og Kimi K2.6 opnåede 5,0x – og begge afbrød processen frivilligt, når de løb ind i forhindringer.

Det tekniske fundament bag evnen til at holde kursen i 35 timer er, hvad Alibaba kalder “environment scaling” – en træningsmetode der minder om, hvordan tidlige LLM’er blev gode ved at træne på ekstremt diverst tekstmateriale, men her overført til dynamiske agentiske miljøer. Dertil har modellen en selvmonitoreringsmekanisme mod reward-hacking: den kan selv opdage, hvornår den begynder at optimere mod et trænings-miljø på en utilsigtet måde, og korrigerer sin strategi.

Benchmarks, priser og kompatibilitet med vestlige værktøjer

Qwen3.7-Max scorer 44,5 på Apex Math Reasoning – mod Claude Opus 4.6 Max’s 34,5 og DeepSeek V4 Pro Max’s 38,3. På Humanity’s Last Exam lander den på 41,4. MCP-Atlas, en coding agent-benchmark, giver 76,4. Kontekstvinduer er på 1 million tokens med op til 64.000 tokens output.

Priserne er interessante for enhver der arbejder med AI-infrastruktur. Alibaba tager 0 per million kombinerede tokens. Det er tre gange billigere end Claude Opus 4.7 (0) og 3,5 gange billigere end GPT-5.5 (5). Kinesiske konkurrenter som Kimi K2.6 (,95) og DeepSeek V4 Pro (,22) er stadig billigere, men Qwen3.7-Max er eksplicit positioneret som et alternativ til de vestlige frontiermodeller – ikke som et budget-alternativ.

Et praktisk detalje for udviklere: modellen understøtter Anthropic API-protokollen direkte, så den kan bruges som drop-in erstatning i eksisterende setups – herunder Claude Code. Alibaba kalder det “cross-harness generalization”. Det sænker friktionen markant for teams, der allerede er bygget op om Anthropic-kompatible pipelines.

Lukket kode, kinesiske endpoints – stop-signalerne er der

Qwen3.7-Max er kun tilgængelig via Alibaba Cloud Model Studio – og det er kinesiske endpoints. Det er en klar afvigelse fra Alibabas hidtidige linje: Qwen 2.5 og Qwen 3.6 var open source, og det var en stor del af deres appel i vestlige udviklingsmiljøer. Nu er modellen lukket. Ingen open weights. Ingen mulighed for at køre den lokalt eller auditere den.

For enhver organisation der håndterer personfølsomme data, forretningshemmeligheder eller kritisk infrastruktur, er det et stop-signal. Ikke fordi Alibaba automatisk er mere risikable end OpenAI eller Google, men fordi lovgivningsrammen er fundamentalt anderledes. Kinesiske techvirksomheder er underlagt kinesisk lov – herunder krav om dataadgang for efterretnings- og sikkerhedstjenester. Det er ikke spekulation – det er lovtekst.

Denne type agentiske AI-systemer med vidtrækkende autonomi er i forvejen på Five Eyes’ radar som en sikkerhedsmæssig udfordring i kritisk infrastruktur. Qwen3.7-Max tilføjer et ekstra lag: du ved ikke præcist, hvad der sker på den anden side af API’et, og du kan ikke kontrollere det.

Alibabas egne benchmark-tal er imponerende. Men dem har de naturligvis interesse i at præsentere fordelagtigt, og der er endnu ingen uafhængig auditering af modellen. Det er ikke enestående for Alibaba – det gælder de fleste frontier-modeller – men kombineret med den geopolitiske kontekst er det en faktor, der skal indgå i enhver seriøs risikovurdering.

Qwen3.7-Max er teknisk set en imponerende demonstration af, hvad agentisk AI kan præstere autonomt over lang tid. Men for europæiske og danske virksomheder gælder de samme forbehold som altid ved kinesisk cloud-infrastruktur: vær præcis på, hvad du sender derop – og til hvem.