Alibabas Qwen 3.6-Plus overhaler Claude i agentic kodning — men kan vi stole på det?

Alibaba har netop lanceret Qwen 3.6-Plus, den seneste version af deres flagskibs-sprogmodel, og benchmarks viser noget bemærkelsesværdigt: modellen slår Claude 4.5 Opus i terminal-baseret agentic kodning. Det er første gang en kinesisk model tager førstepladsen i denne disciplin. Men bag de imponerende tal gemmer sig spørgsmål, som enhver udvikler bør stille, før de omfavner modellen.

Hvad er Qwen 3.6-Plus — og hvorfor er den anderledes?

Qwen 3.6-Plus blev offentliggjort den 2. april 2026 og repræsenterer et skifte i Alibabas AI-strategi. Hvor tidligere Qwen-modeller primært konkurrerede på chat og ræsonnering, er 3.6-Plus bygget specifikt til det, branchen kalder agentic kodning — altså AI-modeller der ikke bare besvarer spørgsmål om kode, men selvstændigt planlægger, eksekverer og itererer på hele udviklingsworkflows.

De vigtigste specifikationer er et kontekstvindue på 1 million tokens (som standard, ikke som tilkøb), op til 65.536 output-tokens per svar, og altid aktiveret chain-of-thought-ræsonnering. Det sidste er en bevidst designbeslutning: modellen tænker igennem hvert prompt, hvilket giver mere forudsigelig og reviderbar beslutningstagning i multi-step agent-workflows.

Modellen er tilgængelig gratis via OpenRouter med model-strengen qwen/qwen3.6-plus-preview:free, og integrerer ifølge Alibaba med populære kodnings-assistenter som Claude Code og Cline.

Benchmarks: Imponerende tal — med forbehold

Tallene er svære at ignorere. På Terminal-Bench 2.0, der tester agentic terminal-kodning, scorer Qwen 3.6-Plus 61,6 — foran Claude 4.5 Opus på 59,3, GLM-5 på 56,2 og Kimi K2.5 på 50,8. Det er en markant forbedring fra Qwen 3.5, der landede på 52,5.

På SWE-bench Verified (den bredere agentic kodnings-benchmark) scorer Qwen 3.6-Plus 78,8 mod Claudes 80,9 — den snævreste margin nogensinde mellem en Qwen-model og Claudes Opus-tier. På SWE-bench Pro (sværere real-world opgaver) er forskellen nede på et halvt point: 56,6 mod 57,1.

Multimodalt er Qwen 3.6-Plus også stærk. På OmniDocBench v1.5 (dokumentgenkendelse og -forståelse) scorer den 91,2 — foran både Claude og Gemini. Det er relevant for enterprise-scenarier med scanning af kontrakter, fakturaer og teknisk dokumentation.

Det kritiske perspektiv: Censur, data og tillid

Men her stopper det ukritiske. Qwen er udviklet af Alibaba Cloud, og Alibaba opererer under kinesisk lovgivning. Det betyder, at modellen er underlagt Kinas Interim Measures for the Management of Generative AI Services — regler der bl.a. kræver, at AI-output “upholder core socialist values” og ikke underminerer statslige interesser.

For udviklere der overvejer at bruge Qwen 3.6-Plus i produktionsmiljøer, rejser det konkrete spørgsmål:

Datahåndtering: Når du sender kode og kontekst til en Qwen-hostet API, hvor behandles og lagres data? Alibabas vilkår er mindre transparente end fx Anthropics eller OpenAIs.
Censur i output: Kinesiske modeller har dokumenteret tendens til at nægte at generere indhold om politisk følsomme emner. I en ren kodnings-kontekst er det mindre relevant — men i agent-scenarier hvor modellen skal tage beslutninger baseret på vilkårligt indhold, kan det give uventede begrænsninger.
Reproducerbarhed: Open-weight-versioner af Qwen-modeller har historisk været svære at reproducere fuldt ud, fordi træningsdata og -pipeline ikke offentliggøres i samme grad som fx hos Meta med Llama.
Geopolitisk risiko: I en tid med skærpede tech-sanktioner mellem USA og Kina bør europæiske virksomheder overveje, om afhængighed af kinesisk AI-infrastruktur er en acceptabel risiko — også selvom modellen teknisk set er open-weight.

Hvad betyder det i praksis for udviklere?

Qwen 3.6-Plus er interessant af flere grunde. Kontekstvinduet på 1 million tokens gør det muligt at give en agent et helt codebase uden chunking eller retrieval — tænk sikkerhedsaudits af alle API-endpoints i én kørsel, eller refactoring af et helt repository med fuld kontekst.

Den altid aktive chain-of-thought er et modigt valg. Det koster lidt latens på simple spørgsmål, men i agentic workflows, hvor konsistens og sporbarhed er vigtigere end hastighed, er det den rigtige afvejning. Sammenlignet med fx Googles Gemini Code Assist i agent mode, tilbyder Qwen en mere ambitiøs kontekstkapacitet — men Gemini har stadig fordelen i cross-language kodning og repository-niveau forståelse.

Det mest interessante er måske signalet: kapløbet om at bygge den bedste agentic kodnings-model er for alvor globalt. For bare seks måneder siden var Claude Code nærmest ubestridt. Nu presser kinesiske, amerikanske og europæiske modeller hinanden i et tempo, der gør det svært at holde øje med — men som i sidste ende gavner os alle som udviklere.

Min anbefaling? Test Qwen 3.6-Plus via OpenRouter (det er gratis), men brug den til eksperimenter og benchmarking — ikke til produktion med følsom kode, før du har en klar forståelse af databehandlingen.