Ny forskning: brugere lader AI-agenter køre 45 minutter selvstændigt

Anthropic har netop publiceret en omfattende undersøgelse baseret på millioner af interaktioner mellem mennesker og AI-agenter. Resultaterne viser en markant udvikling i, hvordan udviklere arbejder med Claude Code — og det handler mere om tillid end om teknologi.

Autonomitiden er næsten fordoblet

Mellem oktober 2025 og januar 2026 steg de længste Claude Code-sessioner fra under 25 minutter til over 45 minutters selvstændig kørsel. Det interessante er, at stigningen var jævn på tværs af modelopdateringer — ikke i skarpe spring. Hvis det udelukkende handlede om, at modellerne blev bedre, ville man forvente tydelige hop ved nye releases. I stedet tyder alt på, at brugerne gradvist udvider deres tillid i takt med erfaringen.

Erfarne brugere afbryder oftere — ikke sjældnere

Blandt nye brugere kører ca. 20% af sessionerne i fuld auto-approve-tilstand. Når brugere når 750+ sessioner, overstiger det 40%. Men her kommer det kontraintuitive: erfarne brugere afbryder Claude hyppigere end nybegyndere. Nye brugere afbryder i ca. 5% af interaktionerne, mens veteraner gør det i ca. 9%.

Strategien skifter altså fra mikrostyring til monitorering. I stedet for at godkende hver handling på forhånd lader erfarne brugere Claude køre frit og griber kun ind, når noget kræver korrektion.

Claude ved, hvornår den skal spørge

En overraskende opdagelse: på komplekse opgaver stopper Claude selv op og stiller opklarende spørgsmål mere end dobbelt så ofte, som brugere afbryder den. De hyppigste årsager til Claude-initierede pauser er:

Præsentation af valg mellem tilgange (35%)
Indsamling af diagnostisk information (21%)
Afklaring af vage forespørgsler (13%)

Til sammenligning afbryder mennesker typisk for at tilføje manglende teknisk kontekst (32%) eller fordi Claude kørte for langsomt eller lavede for meget (17%).

Software dominerer, men nye domæner dukker op

Softwareudvikling udgør næsten 50% af alle agentiske tool calls på Anthropics offentlige API. Men forskerne finder også voksende brug inden for sundhed, finans og cybersikkerhed. Kun 0,8% af de observerede handlinger var irreversible (f.eks. afsendelse af kundeemails), men de mest risikable klynger involverede sikkerhedsoperationer, finansielle transaktioner og medicinske journaler.

Implikationer for branchen

Anthropics forskere argumenterer imod at påtvinge specifikke overvågningsmønstre — som at kræve menneskelig godkendelse af hver enkelt handling. Deres data viser, at sådanne krav skaber friktion uden sikkerhedsmæssige fordele, fordi erfarne brugere naturligt udvikler mere effektive monitoreringsstrategier.

I stedet opfordrer de til bedre post-deployment-monitoreringsinfrastruktur. Pre-deployment-tests kan simpelthen ikke fange, hvordan mennesker faktisk interagerer med agenter i praksis. Mønstrene de observerede — tillidsopbygning over tid, skiftende overvågningsstrategier, agenter der selv begrænser deres autonomi — viser sig kun i reel brug.

Kilde: Anthropic Study Reveals AI Agents Run 45 Minutes Autonomously as Trust Builds (18. februar 2026)

Denne artikel er skrevet i samarbejde med AI, og efterfølgende redigeret af et rigtigt menneske 🙂