Gemini Omni Flash: når multimodale modeller bliver produktionsværktøj

Google har sendt to nye Gemini-modeller ud til udviklere: Nano Banana 2 Lite til hurtig og billig billedgenerering og Gemini Omni Flash til video, lyd og samtalebaseret redigering. Det lyder umiddelbart som endnu en kreativ AI-lancering. Det er det også. Men den vigtigere vinkel er mere jordnær: multimodale modeller er ved at flytte fra demoer og marketingværktøjer ind i almindelige produktionsflows.

Google beskriver Nano Banana 2 Lite som den hurtigste og mest omkostningseffektive Gemini Image-model i Nano Banana-familien. Den er ifølge Google tilgængelig i Google AI Studio, Gemini API og Gemini Enterprise Agent Platform. Gemini Omni Flash er nu også gjort tilgængelig for udviklere samme steder og er målrettet video, lyd og redigering via naturligt sprog. SiliconANGLE citerer Google Cloud for en pris på 10 cent pr. sekund videooutput for Omni Flash.

For danske udviklere og IT-arkitekter handler Gemini Omni Flash derfor mindre om flotte klip og mere om, at tekst, billeder, lyd og video begynder at blive samme type API-afhængighed som sprogmodeller allerede er blevet.

Fra prompt til mediepipeline

Den klassiske LLM-diskussion har været tekst: chatbots, dokumentanalyse, kodeassistenter og søgning. Med Gemini Omni Flash bliver grænsen mere uklar. Modellen tager tekst, video og billeder som input og kan generere eller redigere video med synkroniseret lyd. Ifølge SiliconANGLE kan brugeren blandt andet skifte karakterer, ændre kameravinkler og justere lys med almindelige sprogkommandoer.

Det gør modellen interessant for alle, der bygger værktøjer til support, undervisning, onboarding, produktvideoer eller intern kommunikation. En vejledning kan blive til en kort video. Et supportflow kan producere en visuel forklaring. En produktchef kan bede systemet lave tre varianter af en demo til forskellige kundegrupper. Det er ikke længere kun marketingafdelingen, der får et nyt legetøj. Det er en ny type automatiseret outputkanal.

Det er også her, arkitekturen bliver vigtig. Når et system kan producere video og lyd, skal man ikke kun logge prompt og svar. Man skal logge inputmateriale, rettigheder, modelversion, genereringsparametre, pris, outputhistorik og hvem der godkendte publicering. Ellers bliver fejlfinding, compliance og ansvar hurtigt mudret.

Billigere modeller ændrer adfærden

Nano Banana 2 Lite er værd at holde øje med, selv om navnet lyder som en intern joke, der slap ud af mødelokalet. Google DeepMind kalder den den hurtigste og mest effektive Gemini Image-model, bygget til høj hastighed og laveste omkostning hidtil. Når billedgenerering bliver billigere og hurtigere, ændrer det ikke bare prisen på eksisterende workflows. Det ændrer hvor mange iterationer folk tør køre.

Det samme mønster har vi allerede set med tekstmodeller. Da inference blev billigere, begyndte teams at sende flere forespørgsler, lave flere evalueringer, bruge flere agenter og bygge modelrouting ovenpå. Jeg skrev for nylig om LLM tokenbudget og AI-regningen som drift. Den pointe bliver endnu skarpere med multimodal AI, fordi output ikke kun er tokens. Det er sekunder video, billeder i høj opløsning, lagerplads og menneskelig reviewtid.

En billig model uden budgetstyring bliver hurtigt dyr i praksis. Ikke fordi hvert kald er katastrofalt, men fordi produktet pludselig inviterer til ubegrænset iteration. Derfor bør teams behandle Gemini Omni Flash og lignende modeller som produktionsressourcer med kvoter, projektkonti, cost alerts og klare regler for, hvornår en dyrere model må bruges.

Det svære er ikke generering, men kontrol

Den praktiske risiko er ikke, at modellen laver en dårlig video. Den risiko er synlig. Den svære risiko er, at en organisation langsomt får en uformel mediefabrik uden styring. Medarbejdere uploader kundemateriale, produktplaner, interne optagelser eller persondata til et generativt medieværktøj, fordi det er nemt og integreret i en browser. Pludselig er dataklassifikation, samtykke og ophavsret blevet noget, man håber brugeren husker.

Det ligner problemet med agentiske LLM-systemer. I artiklen om prompt injection og LLM-agenter som kontrolplansproblem var pointen, at problemet ikke kun ligger i modellen, men i alt det modellen får adgang til. Med Gemini Omni Flash er adgangen ikke kun dokumenter og API’er. Det er brandmateriale, kundedata, videoarkiver og publiceringskanaler.

Mit råd er simpelt: byg en kontrolplan før I bygger magien. Definer hvilke dataklasser der må bruges som input. Gem modelversion og prompt sammen med output. Kræv menneskelig godkendelse før ekstern publicering. Sæt budgetgrænser pr. produktområde. Og sørg for, at syntetisk materiale kan spores tilbage til den pipeline, der skabte det.

Gemini Omni Flash er endnu et tegn på, at sprogmodeller ikke bliver ved med at være en chatboks ved siden af arbejdet. De bliver en del af værktøjskæden. Det kan være nyttigt. Men uden styring bliver det endnu en skygge-IT-platform forklædt som kreativitet.