Arcee Trinity Large Thinking: 26 ansatte bygger 400B open source-model der udfordrer tech-giganterne

Mens OpenAI, Google og Anthropic kæmper om frontiermodel-tronen med budgetter i milliardklassen, har en startup med 26 ansatte gjort noget bemærkelsesværdigt. Arcee AI har med Trinity Large Thinking leveret en 400 milliarder parameter sprogmodel under Apache 2.0-licens, trænet for omkring 20 millioner dollar. Modellen scorer tæt på Claude Opus på PinchBench og slår Metas Llama 4 Maverick på flere benchmarks. Det er en historie om, at open source-AI langt fra er død.

Hvad er Arcee Trinity Large Thinking?

Trinity Large Thinking er en sparse Mixture-of-Experts-model (MoE) med 400 milliarder parametre totalt, men kun 13 milliarder aktive per token. Arkitekturen bruger en 4-of-256 expert routing-strategi, hvilket giver en routing-fraktion på bare 1,56%. Til sammenligning bruger DeepSeek-V3 3,13% og GLM-4.5 5,0%. Den lave aktivering betyder hurtigere inferens ved lavere beregningsomkostninger.

Modellen understøtter et kontekstvindue på op til 512.000 tokens nativt, med en preview-API på 128.000 tokens. Den er trænet på 17 billioner tokens fordelt over tre faser (10T, 4T, 3T) på 2.048 Nvidia B300 GPU’er over 33 dage. Træningsdataene er kurateret af DatologyAI og inkluderer over 8 billioner syntetiske tokens på tværs af web, kode, matematik, ræsonnering og 14 ikke-engelske sprog.

Tekniske innovationer: SMEBU og Muon

To tekniske bidrag skiller sig ud. Det første er SMEBU (Soft-clamped Momentum Expert Bias Updates), en ny load balancing-strategi for MoE-modeller. I traditionelle MoE-arkitekturer er det et velkendt problem, at visse eksperter overbelastes mens andre undervuderes. SMEBU løser det ved at justere routing-gradienter gennem momentum-biases med tanh-clipping og momentum-smoothing, suppleret med per-sekvens balance loss. Resultatet er mere stabil træning og bedre udnyttelse af alle 256 eksperter.

Det andet er brugen af Muon-optimizeren i stedet for den traditionelle AdamW. Muon understøtter større kritiske batch-størrelser, hvilket giver højere kapital- og sample-effektivitet. Arcee rapporterer, at hele træningen blev gennemført med nul loss spikes, noget der er usædvanligt for modeller i denne størrelse.

Benchmarks: Tæt på frontierniveau

Tallene er interessante. På MMLU scorer Trinity Large Preview 87,2 mod Llama 4 Mavericks 85,5. På AIME 2025 (avanceret matematisk ræsonnering) scorer den 24,0 mod Mavericks 19,3. Llama 4 Maverick vinder dog på MMLU-Pro (80,5 mod 75,2) og GPQA-Diamond (69,8 mod 63,3).

Den mest interessante benchmark er PinchBench, der måler autonome agent-kapabiliteter. Her scorer Trinity Large Thinking 91,9 og ligger på en andenplads, kun overgået af Claude Opus 4.6. Forskellen er inden for statistisk støj. For en model der koster en brøkdel af Anthropics compute-budget, er det et stærkt resultat.

Arcee selv anslår, at Trinity Large leverer 2-3x hurtigere inferens-throughput sammenlignet med modeller i samme vægtklasse, takket være den høje sparsitet og effektive attention-mekanismer.

David mod Goliath: 20 millioner dollar mod milliarder

Konteksten gør Trinity til mere end bare endnu en model-lancering. Arcee AI er en startup med 26 ansatte. Deres samlede budget for Trinity Large, inklusive compute, lønninger, data, storage og drift, var omkring 20 millioner dollar. Til sammenligning har Amazon netop investeret 25 milliarder dollar i Anthropic, og OpenAI bruger angiveligt hundredvis af millioner per træningskørsel.

Det rejser et vigtigt spørgsmål for branchen: hvor meget compute har man faktisk brug for? MoE-arkitekturer som Trinitys viser, at man kan opnå konkurrencedygtig kvalitet ved kun at aktivere en lille del af modellens parametre per forespørgsel. Det handler ikke bare om at gøre modeller større, men om at gøre dem smartere i deres ressourceforbrug.

Open source-modellernes genkomst

Trinitys lancering falder i en periode, hvor open source-AI er under pres. Meta har med Muse Spark bevæget sig væk fra open source, og flere store aktører holder deres bedste modeller bag API-mure. Arcee går den modsatte vej med en fuld Apache 2.0-licens, der tillader kommerciel brug uden restriktioner.

Modellen er tilgængelig i tre varianter på HuggingFace: Trinity-Large-Preview (instruction-tuned), Trinity-Large-Base (fuldt prætrænet) og Trinity-Large-TrueBase (tidlig checkpoint uden instruction-tuning). Den sidste er særligt interessant for forskere, der vil bygge videre på en ren base-model.

Sammen med Googles Gemma 4 og Mistral Medium 3 viser Trinity, at open source-økosystemet stadig er i stand til at levere modeller, der kan konkurrere med de proprietære alternativer. Spørgsmålet er, om virksomheder som Arcee kan opretholde det tempo med så begrænsede ressourcer.

Hvad det betyder for udviklere

For danske udviklere og IT-organisationer er Trinity interessant af flere grunde. Apache 2.0-licensen giver fuld frihed til at deploye, fine-tune og redistribuere modellen. De 13 milliarder aktive parametre per token gør den overkommelig at køre sammenlignet med dense-modeller i 70B+ klassen. Og det 512K kontekstvindue åbner for use cases med store dokumenter, kodebaser eller lange samtaler.

Modellen er allerede integreret med Kilo Code, Cline og OpenCode, og tilgængelig via OpenRouter og Arcees egen API. Det gør den let at teste uden at sætte infrastruktur op fra bunden.

Om Arcee kan holde momentum med et team på 26, er usikkert. Men Trinity Large Thinking er et stærkt bevis på, at innovation i AI ikke er forbeholdt de største spillere. Nogen gange er det de små, fokuserede teams der leverer de mest overraskende resultater.