MiniMax M3: Kinesisk open-weight model med 1 million tokens kontekst og ny sparse attention-arkitektur

Den 1. juni 2026 frigjorde den Shanghai-baserede AI-startup MiniMax deres nye flagskibsmodel M3 i general availability. MiniMax M3 er en open-weight, native multimodal model med et 1 million tokens kontekstvindue, en ny sparse attention-arkitektur og agentic kodningskapaciteter – alt tilgængeligt til en brøkdel af priserne på de lukkede frontier-modeller.

Modellen er tilgængelig via MiniMax.io API, Kimi Code CLI og OpenRouter, og open weights er annonceret til Hugging Face inden for kort tid.

MSA – en ny sparse attention-mekanisme

Den tekniske kerne i MiniMax M3 er MSA (MiniMax Sparse Attention). Fuld kvadratisk attention skalerer dårligt ved meget lange kontekster – ved 1 million tokens kræver den enorme mængder hukommelse og beregning. MSA løser problemet ved at erstatte fuld attention med KV-block selection: hver forespørgsel behøver kun at se de mest relevante blokke i cachen, ikke samtlige tokens.

MiniMax rapporterer følgende forbedringer ved 1M-tokens kontekst sammenlignet med forgængeren M2:

Per-token compute reduceret til 1/20 af M2
Prefill-hastighed mere end 9x hurtigere
Decoding mere end 15x hurtigere

I sammenligning med lignende sparse attention-tilgange som DSA og MoBA hævder MiniMax, at MSA opdeler KV-cachen mere præcist og er mere end 4x hurtigere end open-source implementeringer som Flash-Sparse-Attention. Ifølge interne ablation-studier matcher MSA fuld attention på størstedelen af kapacitetstest. Modellen understøtter et kontekstvindue på op til 1 million tokens med et garanteret minimum på 512.000 tokens, og inkluderer en vision encoder til billede- og videoinput.

Benchmarks og ydeevne

MiniMax M3 scorer på nøgle-benchmarks:

SWE-Bench Pro: 59,0% – foran GPT-5.5 (57,7%) og Gemini 3.1 Pro (54,2%)
Terminal-Bench 2.1: 66,0%
SWE-fficiency: 34,8%
BrowseComp: 83,5

MiniMax hævder, at M3 nærmer sig Claude Opus 4.7 på SWE-Bench Pro (53,4%). Tallene ser stærke ud – men alle benchmark-resultater er produceret internt af MiniMax på deres egen infrastruktur med egne evalueringsmiljøer. Uafhængig verifikation er endnu ikke offentliggjort. Det er præcis det mønster vi kender fra andre kinesiske modeludgivelser: imponerende tal, som community’et dernæst bruger uger på at efterprøve.

Det er også værd at bemærke, at SWE-Bench Pro og SWE-Bench Verified er to forskellige benchmarks med forskellig sværhedsgrad. Direkte sammenligning med modeller som Mistral Medium 3.5 (77,6% SWE-Bench Verified) kræver forsigtighed.

Prissætning og tilgængelighed

M3 er tilgængelig på følgende platforme:

MiniMax.io API – direkte adgang
Kimi Code CLI – til kodningsopgaver
OpenRouter – launch-promo ved ~$0,30/million input tokens og $1,20/million output tokens

Til sammenligning koster Claude Sonnet 4.6 $3/$15 per million tokens (input/output), og GPT-5.5 er endnu dyrere. M3’s prispunkt er aggressivt – og en open-weight licens betyder, at weights vil være tilgængelige via Hugging Face til lokal kørsel og fine-tuning.

Kinesisk open-weight AI: det kritiske perspektiv

MiniMax er en Shanghai-baseret AI-startup grundlagt i 2021. Som alle kinesiske tech-selskaber opererer de under kinesisk lovgivning – herunder loven om datasikkerhed fra 2021 og loven om algoritmesikkerhed. Det har praktiske konsekvenser:

Kinesiske myndigheder kan kræve adgang til data behandlet via MiniMax’s API-servere
Modellen er certificeret under Kinas AI-sikkerhedskrav, som inkluderer filtrering af politisk følsomt indhold
Open weights reducerer eksponeringen markant: kører du modellen lokalt, sendes dine data ikke til MiniMax’s infrastruktur

Det er samme grundlæggende forbehold som ved DeepSeek V4-Pro og Qwen3 – open-weight licensen ændrer ikke selskabets juridiske forpligtelser. Til lokale eksperimenter og kodningsopgaver, der ikke involverer følsomme data, er M3 interessant. Til forretningsmæssig brug med fortrolige data: kør det selv, eller hold dig til europæiske og amerikanske udbydere.

Konklusion

MiniMax M3 er en teknisk interessant model: MSA-arkitekturen er et reelt bidrag til sparse attention-feltet, 1 million tokens kontekstvindue åbner muligheder for lange kodebaser og dokumentanalyse, og prispunktet er aggressivt. Benchmark-tallene ser stærke ud – men er udelukkende selvrapporterede og afventer uafhængig verifikation.

Mønstret er velkendt: kinesiske labs frigiver konkurrencedygtige open-weight modeller til priser, de vestlige labs ikke kan matche. Det presser innovationen fremad for alle. Det ændrer ikke på de strukturelle datasikkerheds- og censurproblemer, der følger med kinesisk lovgivning.