Qwen 3.6: Alibabas open source-model slår rivaler ti gange sin størrelse

2 min read

Alibaba har gjort det igen. Den 16. april 2026 udgav Qwen-teamet Qwen3.6-35B-A3B under Apache 2.0-licens, og benchmarks viser en model der konsekvent overgår Googles Gemma 4-31B med over 21 point på SWE-bench Verified. Det bemærkelsesværdige: modellen aktiverer kun 3 milliarder parametre ad gangen, trods et samlet parametertal på 35 milliarder. Det gør den til et af de mest effektive Mixture-of-Experts-designs vi har set fra nogen producent.

Fire dage senere fulgte Alibaba op med Qwen3.6-Max-Preview, en proprietær API-model der scorer endnu højere på kodnings- og agentbenchmarks. Tilsammen tegner de to udgivelser et billede af en kinesisk AI-producent der ikke bare følger med, men på flere områder sætter standarden for hvad open source-modeller kan præstere.

Arkitektur: Mixture-of-Experts med et twist

Qwen 3.6 bruger en sparse Mixture-of-Experts-arkitektur (MoE), hvor kun en brøkdel af modellens ekspertnetværk aktiveres for hvert token. Konkret: af de 35 milliarder parametre er kun 3 milliarder aktive under inferens. Det er en tilgang vi kender fra Googles Gemma 4 og Metas Llama 4-serie, men Qwen-teamet har implementeret den med nogle tekniske valg der skiller sig ud.

Modellen er bygget op af 40 lag organiseret i blokke af 10. Hver blok bruger tre lag med Gated DeltaNet (en form for lineær opmærksomhed der er billigere at beregne end standard self-attention) fulgt af ét lag med Grouped Query Attention. GQA-laget bruger 16 opmærksomhedshoveder til queries, men kun 2 til key-value-par, hvilket reducerer hukommelsesforbruget markant.

Kontekstvinduet er nativt 262.144 tokens, men kan udvides til over en million tokens via YaRN-skalering. Det er relevant for agentiske workflows, hvor modellen skal holde styr på lange kodehistorikker og dokumenter.

Benchmarks: Tal der er svære at ignorere

Qwen 3.6-35B scorer 73,4% på SWE-bench Verified, en kodningsbenchmark der tester modellers evne til at løse reelle GitHub-issues. Til sammenligning scorer Gemma 4-31B 52%. På Terminal-Bench 2.0, der tester generering af shell-kommandoer, vinder Qwen med 51,5% mod Gemmas 42,9%.

Modellen er også nativt multimodal og håndterer billeder, video og dokumenter direkte. På VideoMMMU scorer den 83,7%, hvilket er højest i sin klasse. AIME 2026 (matematik) lander på 92,7%, og MMMU (multimodal forståelse) på 81,7%.

Den proprietære Qwen3.6-Max-Preview, der blev lanceret 20. april, forbedrer yderligere med +9,9 point på SkillsBench, +10,8 point på SciCode og +5,0 point på NL2Repo. Det er tal der placerer Alibabas bedste model i direkte konkurrence med Mistral Medium 3 og Anthropics Claude-modeller.

Elefanten i rummet: Kinesisk AI og tillidsproblemet

Man kan ikke skrive om Qwen uden at adressere det åbenlyse spørgsmål: kan man stole på en model udviklet af en kinesisk tech-gigant?

Der er to separate bekymringer. Den første handler om censur. Qwens officielle API-tjeneste har dokumenterede indholdsbegrænsninger omkring politisk følsomme emner. Analyser af tidlige Qwen-modeller har vist at censurfiltre kan resultere i afvisning af helt uskyldige forespørgsler. Den gode nyhed: censuren er ikke bagt ind i de åbne vægte, men implementeret som et separat filtreringslag på den hostede tjeneste. Kører du modellen selv, undgår du det.

Den anden bekymring er datasikkerhed. Kinas nationale efterretningslov fra 2017 forpligter virksomheder til at “støtte, assistere og samarbejde med statslig efterretningsvirksomhed.” Det betyder, at brugerdata sendt til Alibabas API potentielt er tilgængeligt for kinesiske myndigheder. Tredjepartsaudits har desuden afsløret sikkerhedshuller i Qwen-økosystemet, herunder ukrypteret datatransmission og hardcodede krypteringsnøgler.

For danske udviklere og virksomheder er anbefalingen klar: brug de åbne vægte med on-premise eller private cloud-deployment. Undgå den officielle API til alt der involverer kundedata, intellektuel ejendom eller anden følsom information. Apache 2.0-licensen tillader netop denne brug, og med kun 21 GB i kvantiseret form kan modellen køre på forbrugervenlig hardware.

Hvad det betyder for open source-landskabet

April 2026 har været den mest intensive måned for LLM-udgivelser nogensinde. Qwen 3.6 kommer oven i Gemma 4, Llama 4, Claude Opus 4 og GPT-5 Turbo, og priserne på god inferens er faldet med omkring 50% siden januar. Gabet mellem proprietære og open source-modeller er nu så småt, at valget i mange tilfælde handler mere om kontrol og compliance end om rå præstation.

For Alibaba er Qwen 3.6 et strategisk træk. Ved at udgive modellen under Apache 2.0 opbygger de et udviklerfællesskab uden for Kina og positionerer Alibaba Cloud som et seriøst alternativ til AWS og Azure for AI-workloads. Det er den samme playbook Meta brugte med Llama, før de skiftede kurs med Muse Spark.

Bundlinjen: Qwen 3.6-35B-A3B er en teknisk imponerende model med reelle fordele i effektivitet og pris-ydelse. Men ligesom med alle kinesiske AI-produkter kræver det en bevidst sikkerhedsstrategi. Download vægtene, kør dem lokalt, og lad være med at sende følsom data til Alibabas servere. Så har du en af markedets bedste open source-modeller til rådighed, uden de risici der følger med.

Kilder

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *