Software Factory: Når AI-agenter skriver, tester og deployer kode uden menneskelig indblanding

StrongDM har offentliggjort det første detaljerede indblik i deres “Software Factory” — en radikalt ny udviklingsmodel hvor AI coding agents skriver, tester og konvergerer kode helt uden menneskelig code review. Simon Willison kalder det den mest konsekvensrige udvikling i softwareudvikling lige nu.

Fra YOLO Mode til Software Factory

Det startede med en observation i slutningen af 2024: Med den anden revision af Claude 3.5 (oktober 2024) begyndte lange agentic coding workflows at akkumulere korrekthed i stedet for fejl. Før dette vendepunkt ville iterativ brug af LLM’er til kodning langsomt opbygge fejl — misforståelser, hallucinationer, DRY-violations, library-inkompatibilitet — indtil projektet kollapsede.

StrongDMs AI-team blev grundlagt 14. juli 2025 med én regel: “Code must not be written by humans. Code must not be reviewed by humans.”

Deres praktiske benchmark? “Hvis du ikke har brugt mindst $1.000 på tokens i dag per human engineer, har din software factory plads til forbedring.”

Scenarios erstatter tests

Det første problem var åbenlyst: Hvis agenter skriver både kode OG tests, snyder de. return true er en fantastisk måde at bestå en test på, men producerer ikke brugbar software.

StrongDMs løsning er inspireret af Cem Kaners Scenario Testing (2003). De genopfandt begrebet “scenario” som en end-to-end user story, opbevaret uden for kodebasen — ligesom et holdout-set i model training. Scenarierne kan ikke ses af coding agents, hvilket forhindrer reward hacking.

I stedet for boolsk succes (“test suite er grøn”) bruger de satisfaction: Af alle observerede trajectories gennem alle scenarios, hvor stor en andel tilfredsstiller brugeren? En probabilistisk og empirisk tilgang frem for en deterministisk.

Digital Twin Universe: Klon hele dit SaaS-økosystem

Den mest banebrydende del af StrongDMs setup er deres Digital Twin Universe (DTU) — behaviorale kloner af de tredjeparts-tjenester deres software afhænger af. De har bygget twins af Okta, Jira, Slack, Google Docs, Google Drive og Google Sheets, der replikerer API’er, edge cases og observerbar adfærd.

Tricket? De dumpede den fulde offentlige API-dokumentation for hver tjeneste ind i deres agent harness og lod den bygge en imitation som en selvstændig Go binary. Derefter en forenklet UI ovenpå for at fuldende simulationen.

Nøglestrategien, som DTU-skaberen Jay Taylor forklarede: Brug populære offentlige reference SDK-klientbiblioteker som kompatibilitetsmål, med 100% kompatibilitet som mål.

Med DTU kan de validere i volumener og hastigheder langt over produktionsgrænser — tusindvis af scenarios i timen, uden rate limits, abuse detection eller API-omkostninger.

Nye teknikker til en ny æra

StrongDM introducerer også flere nye teknikker:

Gene Transfusion: Agenter ekstraherer patterns fra eksisterende systemer og genbruger dem andetsteds
Semports: Direkte portering af kode fra ét sprog til et andet via semantisk forståelse
Pyramid Summaries: Multiple niveauer af resuméer, så agenter hurtigt kan enumerate korte summaries og zoome ind på detaljer efter behov

Hvad det betyder for udviklere

Simon Willison, der fik en tidlig demo, fremhæver det centrale spørgsmål: Hvordan beviser du, at software virker, når både implementering og tests skrives af coding agents?

StrongDMs svar — holdout scenarios, probabilistisk satisfaction-scoring, og en Digital Twin Universe — er det mest gennemtænkte bud vi har set. Det er ikke et akademisk tankeeksperiment. Det er produktionskode. For sikkerhedssoftware.

Willison noterer, at “no hand-coded software” var radikalt i juli 2025, men at han nu ser et betydeligt antal erfarne udviklere adoptere denne tilgang fra januar 2026.

For os der arbejder med agentic engineering, er StrongDMs Software Factory et konkret blueprint for næste skridt: Fra AI-assisteret udvikling til AI-drevet udvikling, hvor menneskets rolle skifter fra at skrive kode til at definere scenarios og validere satisfaction.