En af de mere lærerige LLM-historier de sidste døgn handler ikke om et nyt benchmark på toppen af ranglisten. Den handler om noget langt mere jordnært: kan man stole på en model, hvis man ikke kan stole på dens oprindelse?
Rio de Janeiros kommunale IT-selskab IplanRIO lagde modellen Rio-3.5-Open-397B på Hugging Face som en stor åben model med 397 milliarder parametre. Den blev hurtigt omtalt som en lokal, brasiliansk satsning på AI-uafhængighed. Kort efter åbnede Nex-AGI en GitHub-issue med en teknisk anklage: vægtene i Rio-modellen lignede ikke en selvstændigt trænet model. De lignede en direkte lineær blanding af cirka 60 procent Nex-N2-Pro og 40 procent Qwen3.5-397B-A17B.
Det vigtige ord her er modelprovenans. Altså dokumentationen for hvor en model kommer fra, hvilke basisvægte den bygger på, hvilken træning der er udført, og hvilke rettigheder og risici der følger med. For udviklere, arkitekter og offentlige indkøbere er det ikke akademisk fnidder. Det er forskellen på en kontrollerbar komponent og en sort boks med god PR.
Anklagen: en modelmerge forklædt som egen træning
Nex-AGI skriver, at Rio-modellen er præsenteret som en original 397B-model trænet af IplanRIO, men at de ikke finder bevis for selvstændig træning. De peger på to uafhængige spor. Først: når den hårdkodede “You are Rio”-systemprompt fjernes, identificerer modellen sig ifølge Nex-AGI som “Nex, from Nex-AGI” i 79 procent af testene og som Rio i 0 procent. Dernæst: hver vægttensor skulle statistisk passe som en 0,6/0,4-blanding af Nex-N2-Pro og Qwen3.5 på tværs af alle 60 lag og netværkskomponenter.
Det er en stærk påstand, men også en påstand der netop kan undersøges, fordi vægtene er åbne. En modelmerge er i sig selv ikke snyd. Tværtimod er det en kendt metode i open-weight-miljøet, hvor beslægtede modeller med samme arkitektur blandes matematisk for at kombinere egenskaber. Problemet opstår, hvis resultatet sælges som noget andet end det er.
Hugging Face-siden for Rio-modellen er siden blevet opdateret med en forklaring: modellen skulle være bygget via en merge af Nex-N2-Pro og Qwen3.5-397B-A17B, efterfulgt af on-policy distillation fra en stærkere model. Der står også, at en forkert version blev uploadet, nemlig den basale merge i stedet for den endelige destillerede model. Det kan være sandt. Men indtil den korrekte model og en klar modelkort-historik ligger offentligt fremme, er tilliden skadet.
Hvorfor det betyder noget i praksis
Hvis en kommune, et ministerium eller en virksomhed siger, at de har bygget en national eller lokal sprogmodel, følger der implicit nogle påstande med: at de har kompetencerne, dataene, budgettet, evalueringssetup’et og governance-modellen til at drive en sådan model. Hvis modellen i virkeligheden primært er en blanding af to eksisterende åbne modeller, er det stadig teknisk interessant, men det er ikke den samme organisatoriske kapabilitet.
For IT-arkitekter er det her en indkøbsrisiko. Hvis man tager en model ind i en offentlig eller reguleret løsning, skal man kunne svare på simple spørgsmål: Hvilken licens gælder? Hvilke basismodeller indgår? Er der trænet på data med særlige rettigheder? Kan modellen spores tilbage til en leverandør, der senere ændrer licens, fjerner filer eller bliver omfattet af eksportkontrol? Den slags er ikke pynt. Det er drift, compliance og kontraktstyring.
Det er samme grundproblem som i LLM eksportkontrol: når modeladgang bliver driftsrisiko: modelvalg er ikke længere bare et spørgsmål om kvalitet. Det er en afhængighed. Og afhængigheder uden tydelig oprindelse er svære at styre.
Open weights gør løgnen sværere, ikke umulig
Den positive del af historien er, at open-weight-økosystemet faktisk virkede. Fordi modellerne kunne inspiceres, kunne community’et sammenligne vægte, identitetstests og modelkort. Hacker News-tråden gik hurtigt fra “spændende lokal model” til en ret præcis diskussion om vægtinterpolation, attribution og falske kapabilitetsclaims. Det er sundt.
Men det viser også, at modelkort stadig er for svage som kontraktgrundlag. Et modelkort bør ikke bare være marketingtekst med et par benchmarktabeller. Det bør indeholde en sporbar kæde: basisvægte, merge-opskrift, distillation, træningsdata på højt niveau, evalueringsmetoder, licenser, kendte begrænsninger og ændringshistorik. Hvis en model bliver erstattet, bør filhistorikken og checksums gøre det tydeligt hvad der skete.
Det minder om diskussionen om åbne agentmodeller i SubQ-artiklen: nye arkitekturer og billige kontekstvinduer er spændende, men de ændrer ikke på behovet for dokumentation. Jo mere modeller bliver produktionsinfrastruktur, desto mindre kan vi nøjes med “trust me, bro”.
Den praktiske lektie
Hvis du evaluerer en åben LLM i 2026, bør modelprovenans ind i tjeklisten før benchmarks. Spørg efter basisvægte. Spørg efter trænings- og mergeproces. Gem modelkort og filhashes ved indkøbstidspunktet. Test om modellen afslører en anden identitet end den annoncerede. Og vær skeptisk, når en aktør pludselig hævder frontier-lignende resultater uden tilsvarende dokumentation for træning, data og evalueringsmiljø.
Rio-sagen kan stadig ende med en banal uploadfejl. Men selv i den mest velvillige version er den en advarsel: AI-suverænitet handler ikke om at sætte et lokalt navn på en model. Det handler om at kunne dokumentere hvad man faktisk har bygget, hvad man har arvet, og hvem der bærer ansvaret når modellen bliver brugt i rigtige systemer.
Kilder
- Rio-3.5-Open-397B ≈ 0.6 x Nex-N2_pro + 0.4 x Qwen – Nex-AGI GitHub issue, 14. juni 2026
- Rio-3.5-Open-397B modelkort – Hugging Face, læst 16. juni 2026
- Nex-N2-Pro modelkort – Hugging Face, læst 16. juni 2026
- Qwen3.5-397B-A17B modelkort – Hugging Face, læst 16. juni 2026
- Hacker News-diskussion om Rio-modellen – Hacker News, 15. juni 2026
Denne artikel er skrevet i samarbejde med AI, og efterfølgende redigeret af et rigtigt menneske 🙂