NVIDIA satser $20 milliarder på Groq-chippen — og erklærer inferensens tidsalder

Da Jensen Huang i går aftes indtog scenen ved NVIDIA GTC 2026 i San Jose, handlede det ikke primært om den næste GPU-generation. I stedet satte NVIDIA’s CEO fokus på et fundamentalt skift i AI-industrien: inferens er nu vigtigere end træning. Og for at understrege pointen præsenterede han Groq 3 LPU — den første chip, der er resultatet af NVIDIA’s opsigtsvækkende $20 milliarder-aftale med Groq fra juledag 2025.

Fra GPU-kongen til inferensens kejser

NVIDIA har i årevis domineret AI-træning med sine GPU’er. Men AI-modeller skal ikke kun trænes — de skal også køre. Når ChatGPT svarer på dit spørgsmål, når en AI-agent bestiller din flybillet, eller når en autonom bil analyserer trafikken, er det inferens, der arbejder. Og med den eksplosive vækst i agentiske AI-systemer — hvor hundredvis af AI-agenter kommunikerer med hinanden i realtid — er kravene til inferenshastighed eksploderet.

“AI kan nu udføre produktivt arbejde, og derfor er inferensens vendepunkt ankommet,” sagde Huang i sin to timer lange keynote. Det er ikke bare en teknisk observation — det er en forretningsanalyse. NVIDIA opjusterede sin prognose for chip-omsætning til mindst $1 billion fra 2025 til 2027, op fra de $500 milliarder, virksomheden fremlagde ved sin seneste kvartalsrapport i februar.

Groq 3 LPU: Specialbygget til hastighed

Groq har længe været en outsider i AI-chipmarkedet. Virksomheden, grundlagt af Jonathan Ross (tidligere Google TPU-arkitekt), byggede sine Language Processing Units (LPU’er) fra bunden med ét mål: lynhurtig inferens. Hvor NVIDIA’s GPU’er er generalister, der kan både træne og køre AI-modeller, er Groq’s LPU’er specialister, der gør én ting ekstremt godt.

Hemmeligheden bag Groq’s hastighed er arkitekturen. I stedet for at flytte data frem og tilbage mellem processor og separat hukommelse — en flaskehals som plager selv de bedste GPU’er — bruger LPU’en SRAM-baseret on-chip-hukommelse, der fungerer som et software-defineret samlebånd. Groq 3-chippen leverer 40 petabyte per sekund i båndbredde, og det nye Groq 3 LPX-serverrack rummer 256 LPU’er med 128 gigabyte statisk hukommelse.

Målet er op til 1.500 tokens per sekund. For perspektiv: 100 tokens per sekund føles hurtig for et menneske, der læser tekst. Men for AI-agenter, der konstant kommunikerer med hinanden, er 100 tokens decideret langsomt. 1.500 tokens per sekund åbner døren for de komplekse, flerstrenget AI-arbejdsgange, som industrien kalder agentic AI.

En aftale til $20 milliarder — på tre måneder

NVIDIA annoncerede sin licensaftale med Groq den 24. december 2025. Prisen: $20 milliarder for Groq’s IP, plus ansættelsen af grundlægger Jonathan Ross og præsident Sunny Madra sammen med nøgleingeniører. Blot tre måneder senere står den første chip klar — hvilket indikerer, at udviklingen var langt fremme allerede inden aftalen.

Ian Buck, NVIDIA’s vicepræsident for hyperscale-computing, beskrev samarbejdet klart: Groq 3 fungerer som en coprocessor til Rubin GPU’erne og booster ydeevnen på “hvert lag af AI-modellen ved hver token.” Groq 3 LPX-racket er designet til at arbejde sammen med det nye Vera Rubin NVL72, som kombinerer Rubin GPU’er med NVIDIA’s nye Vera CPU’er. Tilsammen lover NVIDIA 35 gange højere throughput per megawatt og ti gange større omsætningsmulighed for datacenteroperatører.

Hvad det betyder for resten af os

NVIDIA’s inferenspivot har konsekvenser langt ud over chipmarkedet. For udviklere og IT-arkitekter signalerer det, at den næste bølge af AI-innovation ikke handler om at bygge større modeller — men om at køre eksisterende modeller hurtigere, billigere og mere effektivt. Det er godt nyt for virksomheder, der vil bruge AI i produktion uden at betale formuer for GPU-tid.

Samtidig intensiverer det konkurrencen. Cerebras, der i samme uge annoncerede et partnerskab med AWS om at levere hurtig AI-inferens via Bedrock, jager det samme marked. Og cloud-udbyderne — Google, Microsoft, Amazon — udvikler alle deres egne inferensstacks. NVIDIA’s svar er at tilbyde hele pakken: GPU’er til træning, LPU’er til inferens, CPU’er til orkestrering, og software som NemoClaw til sikkerhed. En vertikal integration, der minder om Apple’s strategi, bare for AI-infrastruktur.

Jensen Huang opsummerede det i sin keynote: “Vi tænker ikke Vera Rubin som en enkelt chip — vi tænker hele systemet, vertikalt integreret, komplet med software, optimeret som ét kæmpesystem.” Det er en ambitiøs vision. Spørgsmålet er, om resten af industrien køber præmissen — eller om alternativer som Cerebras og de store cloud-platformes egne chips tager en bid af den $1 billion-kage, NVIDIA har sat sig for at spise.