Tusindvis sælger deres identitet for at træne AI — men hvad koster det egentlig?

2 min read

AI-træningsdata: Mennesker sælger deres identitet til AI-platforme

En 27-årig sydafrikaner optager videoer af sine fødder på fortovet for 14 dollar stykket. En indisk studerende tjener over 100 dollar om måneden på at lade en app lytte med på byens støj via sin telefon. En 18-årig amerikaner sælger private telefonsamtaler med venner og familie for 50 cent per minut. Velkomsten til AI-træningens nye gigøkonomi — hvor din identitet er råvaren.

AI-modellerne er sultne — og internettet rækker ikke længere

Historien er beskrevet i en grundig artikel i The Guardian denne uge, og den tegner et billede af en hurtigt voksende industri. Store sprogmodeller som ChatGPT og Gemini kræver enorme mængder træningsdata for at blive bedre. Men de mest brugte datasæt på nettet — C4, RefinedWeb, Dolma — blokerer nu i stigende grad for AI-virksomheder. Forskere estimerer, at AI-selskaberne løber tør for frisk, højkvalitets tekstdata allerede i 2026.

Syntetisk data — altså data genereret af AI selv — er ét alternativ. Men forskning publiceret i Nature viser, at rekursiv træning på syntetiske data fører til en nedadgående spiral af fejl og kvalitetsforringelse. Modellerne kollapser simpelthen, hvis de kun fodres med deres eget output.

Det er her, den nye gigøkonomi træder ind. Apps som Kled AI, Silencio, Neon Mobile og Luel AI (Y Combinator-backed) betaler helt almindelige mennesker for at uploade videoer, billeder, stemmeprøver og endda private samtaler. ElevenLabs lader dig klone din stemme digitalt, så andre kan bruge den — for sølle 2 cent per minut.

Gode penge — men med usynlige omkostninger

For mange i udviklingslande giver det god mening. Jacobus Louw fra Cape Town kæmpede med et nervøst lidelse i årevis og kunne ikke finde arbejde. Pengene fra AI-træning hjalp ham med at spare sammen til et kursus som massør. “Som sydafrikaner er betaling i USD mere værd, end folk tror,” fortalte han til The Guardian.

Bouke Klein Teeselink, økonomiekspert ved King’s College London, forudser, at gigbaseret AI-træning vil vokse markant. AI-selskaber foretrækker at betale for licenseret data frem for at risikere ophavsretssager fra web-scraping. Og menneskeligt genereret data er stadig “guldstandarden” ifølge AI-forsker Veniamin Veselovsky.

Men omkostningerne er ofte usynlige. På mange platforme giver brugerne uigenkaldelige, royalty-frie licenser, der tillader “afledte værker.” Det betyder, at en 20 minutters stemmeoptagelse i dag kan drive en AI-kundeservicebot i flere år — uden at den oprindelige bidragyder nogensinde ser en krone mere. Dit ansigt kan ende i en ansigtsgenkendelsesdatabase eller en aggressiv reklame på den anden side af jorden, med reelt ingen juridisk beskyttelse.

Et strukturelt problem — ikke bare en privatlivsdiskussion

Mark Graham, professor i internetgeografi ved Oxford University og forfatter til bogen Feeding the Machine, sætter skarpe ord på problemet: For den enkelte kan pengene betyde noget på kort sigt. Men strukturelt er arbejdet “usikkert, ikke-progressivt og reelt en blindgyde.” AI-markedspladserne bygger på “et kapløb mod bunden i lønninger” og en “midlertidig efterspørgsel efter menneskelige data.”

Når efterspørgslen skifter — og det vil den, i takt med at modellerne bliver bedre til at generere syntetiske data, eller nye lovgivning træder i kraft — står arbejderne tilbage “uden beskyttelse, uden overførbare kompetencer og uden sikkerhedsnet.” Den eneste varige vinder er platformene i den rige verden, der har fanget al den varige værdi.

Det er et mønster, vi kender fra andre digitale platforme. Metas AI-agent der gik amok med følsomme data og Anthropics undersøgelse af 81.000 menneskers AI-holdninger viser begge, at afstanden mellem teknologiens muligheder og den menneskelige virkelighed vokser.

Hvad det betyder for os i Europa

I EU har vi GDPR og den nye AI Act som rammer. Men disse apps opererer globalt, og mange af de mennesker, der bidrager med data, bor i lande med svag eller ingen databeskyttelse. Det rejser et grundlæggende spørgsmål: Kan vi acceptere AI-systemer, der er trænet på data indsamlet under vilkår, som ville være ulovlige i Europa?

Den europæiske AI Act kræver dokumentation af træningsdata for højrisiko-systemer. Men håndhævelsen overfor data indsamlet i Sydafrika, Indien eller andre globale markeder er i bedste fald uklar. Og de fleste forbrugere — også dem der dagligt bruger AI-assistenter — har ingen idé om, at systemerne de interagerer med potentielt er trænet på privatsamtaler købt for en halv dollar per minut.

Debatten om AI-træningsdata er ikke ny. Men at den nu handler om mennesker, der aktivt sælger deres biometriske identitet — stemme, ansigt, bevægelsesmønstre, private samtaler — gør den akut. Vi bevæger os fra en verden, hvor data blev skrabet fra nettet uden samtykke, til en verden hvor samtykket gives — men under vilkår, som de færreste fuldt forstår konsekvenserne af.

Kilder

Denne artikel er skrevet i samarbejde med AI, og efterfølgende redigeret af et rigtigt menneske 🙂

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *