Google lancerer Gemini 3.1 Flash-Lite — otte gange billigere end Pro og 45% hurtigere

Google har netop lanceret Gemini 3.1 Flash-Lite, den billigste og hurtigste model i Gemini 3-familien. Med en pris på $0,25 per million input-tokens og $1,50 per million output-tokens koster den en ottendedel af storebror Gemini 3.1 Pro — og den er samtidig markant hurtigere end forgængeren Gemini 2.5 Flash.

For udviklere og virksomheder, der arbejder med AI i stor skala, er budskabet klart: Googles nyeste model er designet til at gøre AI-inferens så billigt og hurtigt, at det kan integreres i næsten alt — fra kundeservice til realtids-indholdsmoderering.

Hastighed som konkurrenceparameter

I AI-verdenen handler det ikke kun om, hvor klogt et svar er — det handler om, hvor hurtigt det kommer. Gemini 3.1 Flash-Lite er bygget specifikt til at minimere ventetiden. Ifølge Googles egne benchmarks er modellens time to first token 2,5 gange kortere end Gemini 2.5 Flash, mens den samlede output-hastighed er 45% højere med 363 tokens per sekund mod 249.

Det lyder måske teknisk, men konsekvensen er konkret: Når en chatbot eller et AI-assisteret interface føles øjeblikkeligt, ændrer det brugeroplevelsen fundamentalt. Som Koray Kavukcuoglu, VP of Research hos Google DeepMind, beskrev det på X: Der ligger “en utrolig mængde kompleks engineering” bag at få AI til at føles øjeblikkelig.

En af de mest interessante nye funktioner er thinking levels — muligheden for dynamisk at justere modellens ræsonneringsdybde. Til simple klassificeringsopgaver kan man skrue ned for at spare tid og penge. Til kompleks kodegenerering eller dashboard-opbygning kan man skrue op og lade modellen tænke dybere, før den svarer. Det er en pragmatisk tilgang, der giver udviklere finkornet kontrol over forholdet mellem kvalitet, hastighed og omkostning.

Benchmarks: Lille model, store resultater

Trods sit “Lite”-suffix viser Gemini 3.1 Flash-Lite overraskende stærke benchmark-resultater. Modellen opnåede topplaceringer i 6 ud af 11 tests, hvor den slog både OpenAIs GPT-5 mini og Anthropics Claude 4.5 Haiku i flere kategorier. Her er nogle af nøgletallene:

GPQA Diamond (videnskabelig viden på ph.d.-niveau): 86,9%
MMMU-Pro (multimodal forståelse): 76,8%
MMMLU (flersproget spørgsmål-svar): 88,9%
LiveCodeBench (kodegenerering): 72,0%
Humanity’s Last Exam (abstrakt ræsonnering): 16,0% — til sammenligning scorer Gemini 3.1 Pro 44,4%

Modellen scorer også 1432 på Arena.ai Leaderboard (Elo-rating), hvilket placerer den i konkurrencedygtigt selskab med langt større modeller. Særligt imponerende er dens evne til at generere struktureret output — valid JSON, SQL og UI-kode — som er afgørende for enterprise-udviklere, der har brug for pålideligt maskinlæsbart output.

Priskrigen intensiveres

Flash-Lite er Googles svar på en branche, der bevæger sig mod stadig billigere AI-inferens. Som vi tidligere har skrevet om, falder priserne på LLM-inferens dramatisk, og det accelererer kun. Med Flash-Lite til $0,25/$1,50 per million tokens (input/output) underbydes selv Anthropics Claude 4.5 Haiku og OpenAIs GPT-5 mini, der begge ligger højere i prissegmentet.

Strategien er tydelig: Google vil eje det segment, hvor virksomheder kører millioner af API-kald dagligt — oversættelse af produktbeskrivelser, moderering af indhold, klassificering af supporthenvendelser. Det er opgaver, der ikke kræver dyb ræsonnering, men hvor hastighed og pris er alt.

Samtidig lancerede OpenAI i denne uge GPT-5.3 Instant, der fokuserer på hurtigere samtaleflow og bedre websøgning. Priskapløbet i AI-branchen er ikke længere kun et spørgsmål om, hvem der har den klogeste model — det handler i stigende grad om, hvem der kan levere “god nok” AI til den laveste pris.

Hvad betyder det i praksis?

For danske udviklere og IT-afdelinger er Gemini 3.1 Flash-Lite interessant af flere grunde. Modellen er tilgængelig via Google Cloud Vertex AI og Google AI Studio, og den understøtter multimodale prompts med op til 1 million tokens input og 64.000 tokens output — nok til at behandle lange dokumenter, billeder og video i samme kald.

De oplagte use cases er dem, hvor AI-agenter udfører repetitive opgaver i stor skala: automatisk tagging af indhold, realtids-oversættelse, compliance-screening eller generering af dashboards fra naturligt sprog. Med thinking levels kan man balancere mellem “hurtig og billig” og “grundig og dyrere” inden for samme model.

Flash-Lite er i preview nu og forventes at blive generelt tilgængelig i løbet af de kommende uger. Om den lever op til benchmarks i virkelighedens rod og støj, vil tiden vise — men prisargumentet alene gør den værd at holde øje med.