GLM-5: Kinas 744-milliarder-parameter model trænet helt uden Nvidia — og open source under MIT

Kinas svar på de vestlige AI-giganter hedder GLM-5. Zhipu AI har netop lanceret en sprogmodel med 744 milliarder parametre, trænet udelukkende på kinesisk hardware — 100.000 Huawei Ascend 910B-chips. Ikke en eneste Nvidia- eller AMD-chip har været involveret. Og modellen er udgivet under MIT-licensen, den mest åbne open source-licens der findes.

Det er en milepæl, der fortjener opmærksomhed — men også kritisk eftertanke.

Hvad er GLM-5 rent teknisk?

GLM-5 er bygget som en Mixture-of-Experts (MoE) arkitektur med 256 eksperter, hvoraf kun 8 er aktive pr. token. Det betyder, at selvom modellen har 744 milliarder parametre i alt, bruger den kun ca. 44 milliarder parametre ved hvert inference-kald. Det holder beregningsomkostningerne nede trods den enorme skala.

Kontekstvinduet strækker sig til 200.000 tokens med et maksimalt output på 131.000 tokens. Modellen er trænet på 28,5 billioner tokens — et datasæt af massiv størrelse. To tekniske valg skiller sig ud: Multi-head Latent Attention reducerer hukommelsesforbruget med 33% sammenlignet med standard attention, og DeepSeek Sparse Attention muliggør effektiv håndtering af lange kontekster uden den tunge beregningsmæssige overhead fra dense attention.

Benchmarks: Imponerende — men med forbehold

Tallene er svære at ignorere. GLM-5 scorer 77,8% på SWE-bench Verified (kodningsopgaver), hvor GPT-5.2 ligger på 76,2% og Claude Opus 4.5 på 80,9%. På Humanity’s Last Exam — en test designet til at forblive svær for frontier-modeller — scorer GLM-5 50,4% med værktøjer, hvilket slår både GPT-5.2 (47,8%) og Claude Opus 4.5 (46,2%).

Men billedet er mere nuanceret end overskrifterne antyder. På rene ræsonneringsopgaver halter GLM-5 efter: AIME 2025 giver den 88,7% mod GPT-5.2’s perfekte 100%. Og på Terminal-Bench 2.0 ligger den 8-9 procentpoint efter både GPT-5.2 og Claude Opus. Styrken er koncentreret i kodning og agentiske opgaver — ikke i generel ræsonnering.

Zhipu hævder også, at de har reduceret hallucinationsraten fra 90% (GLM-4.7) til 34% via deres Slime reinforcement learning-framework. Til sammenligning ligger Claude Sonnet 4.5 omkring 42% og GPT-5.2 omkring 48%. Hvis tallene holder, ville det gøre GLM-5 til den frontier-model med lavest hallucinationsrate — men netop her bør man være kritisk.

Det store spørgsmål: Kan man stole på tallene?

Her kommer den nødvendige kritiske vinkel. De fleste af GLM-5’s benchmark-resultater kommer fra Zhipu AI’s egne evalueringer. Uafhængig verifikation fra tredjeparter som Chatbot Arena og LMSYS mangler stadig. I en kinesisk kontekst, hvor statslig støtte og teknologisk nationalisme spiller en central rolle, bør man behandle producent-rapporterede specifikationer med sund skepsis — præcis som man ville med enhver anden producent, men med en ekstra bevidsthed om de geopolitiske interesser der driver Kinas AI-strategi.

Desuden rejser MIT-licensen et paradoks. GLM-5 er teknisk set åben — vægtene ligger på HuggingFace, og man kan self-hoste via vLLM. Men modellen er trænet på data, hvis sammensætning og kurateringsproces ikke er fuldt gennemsigtig. For en kinesisk model er spørgsmålet om censur i træningsdata altid relevant: Hvad har modellen lært at undgå? Hvad ved vi ikke om de datasæt, der har formet dens verdensbillede?

Hvad betyder det for udviklere i praksis?

Prismæssigt er GLM-5 aggressiv. Input koster $1,00 pr. million tokens og output $3,20 — sammenlignet med ca. $6 og $30 for henholdsvis GPT-5.2 og Claude Opus 4.6. Det er 5-6 gange billigere. For teams der kører store mængder agentiske workflows med mange API-kald, kan det gøre en markant forskel på bundlinjen.

Tradeoff’et er hastighed. GLM-5 producerer 17-19 tokens pr. sekund mod 25-30+ for de vestlige frontier-modeller. Det afspejler både MoE-routing overhead og Ascend-hardwarens lavere per-chip throughput. I interaktive scenarier mærkes det. I batch-workflows med kodningsopgaver er det mere acceptabelt.

API-adgang kører via OpenAI-kompatible endpoints hos Z.ai og OpenRouter, hvilket gør integration nem for dem, der allerede arbejder med standard-API’er. Modellen er tilgængelig som download via HuggingFace (zai-org/GLM-5) og ModelScope.

Det bredere billede

GLM-5 beviser, at USA’s chipembargo ikke har forhindret Kina i at nå frontier-niveau — i hvert fald inden for specifikke domæner som kodning og agentiske opgaver. Zhipu har brugt 100.000 Huawei-chips til at træne en model, der konkurrerer med de bedste vestlige modeller, og har gjort det open source.

For europæiske og danske udviklere er budskabet todelt. På den ene side er der nu endnu en konkurrencedygtig model at evaluere — og den er væsentligt billigere. På den anden side bør man nøje overveje datasikkerhed, censur i træningsdata og de geopolitiske implikationer, før man lægger sine produktionsworkflows over på kinesisk infrastruktur.

Spørgsmålet er ikke længere, om kinesiske labs kan konkurrere på frontier-niveau. Det kan de. Spørgsmålet er, om resten af industrien har prissat ind, hvor hurtigt de lukker gabet.