Google splitter TPU 8 i to: Specialbyggede chips til træning og inferens udfordrer Nvidia

Google Cloud fyrede i går en alvorlig bredside mod Nvidia. På Cloud Next 2026 afslørede Google sin ottende generation af Tensor Processing Units, og for første gang nogensinde splitter de chippen i to specialiserede varianter: TPU 8t til modeltræning og TPU 8i til inferens. Det er et strategisk skifte, der signalerer enden på one-size-fits-all tilgangen til AI-silicium.

To chips, to formål

Logikken er enkel: træning og inferens stiller fundamentalt forskellige krav til hardware. Træning kræver massiv parallelitet og hukommelsesbåndbredde til at bearbejde petabytes af data. Inferens handler om latenstid, gennemløb og pris pr. forespørgsel. Ved at designe separate chips kan Google optimere hver del af stakken i stedet for at lave kompromiser.

TPU 8t (kodenavn “Sunfish”) er designet af Broadcom og byder på to compute-dies med otte stakke 12-high HBM3e. Chippen leverer op til 12,6 petaFLOPS i FP4-beregning, 216 GB HBM med 6,5 TB/s båndbredde og 128 MB on-chip SRAM. I et superpod-setup når man op på 121 exaFLOPS. Google hævder 2,8x bedre pris-ydeevne til træning sammenlignet med forrige generations Ironwood (TPU 7).

TPU 8i (kodenavn “Zebrafish”) er MediaTeks bidrag og fokuserer udelukkende på inferens. Her finder man en enkelt compute-die med seks stakke HBM3e, 288 GB hukommelse med 8,6 TB/s båndbredde og hele 384 MB on-chip SRAM, tre gange så meget som Ironwood. Med 10,1 petaFLOPS i FP4 og et design optimeret til lav latenstid, lover Google 20-30% lavere pris pr. inferens-forespørgsel end træningsvarianten.

Hvorfor splittet giver mening

For Google handler det om ren økonomi. Når man betjener milliarder af AI-forespørgsler dagligt gennem Search, Gmail, YouTube og Gemini, bliver pris pr. inferens den afgørende faktor for hele forretningsmodellen. En chip der er 20-30% billigere pr. forespørgsel repræsenterer astronomiske besparelser i den skala.

Samtlige store cloud-udbydere kæmper med den samme udfordring. Amazon har netop investeret 25 milliarder dollar i Anthropic og satser hårdt på deres egne Trainium-chips. Microsoft har Maia-chipsettet. Men Google er den første, der eksplicit splitter generationerne op i to forskellige chipdesigns fra to forskellige leverandører.

Begge chips targets mod TSMCs 2nm-proces og forventes klar i slutningen af 2027. Det er værd at bemærke, at Google allerede har sikret sig designaftaler med Broadcom for træningschips helt frem til 2031, og at Marvell angiveligt er i forhandlinger om endnu en inferensfokuseret chip.

Nvidias position: stadig dominerende, men under pres

Google sammenligner bemærkelsesværdigt nok ikke direkte med Nvidias chips. Det er diplomatisk, men også taktisk. Pointen er ikke at slå Nvidia chip-for-chip. Det kan de formentlig heller ikke. Pointen er at give cloud-kunder et reelt alternativ, der reducerer afhængigheden af Nvidias Blackwell- og kommende Rubin-arkitekturer.

Nvidia har i årevis kunnet diktere priser og leveringstider, fordi der simpelthen ikke var troværdige alternativer til high-end GPU-træning. Men med Anthropic låst fast på TPU-infrastruktur via Google Cloud, Meta der angiveligt lejer TPU-kapacitet for milliarder, og nu to dedikerede TPU 8-varianter i pipelinen, bliver Nvidias prisforhandlingsposition svækket. Køen til Blackwell-chips bliver kortere, når kunderne har andre steder at gå hen.

Den agentiske æra kræver ny infrastruktur

Google kalder selv TPU 8 for “chips til den agentiske æra”. Det er ikke bare marketing. AI-agenter, der udfører komplekse multi-step workflows autonomt, stiller helt andre krav til inferens end en simpel chatbot-forespørgsel. En agent kan generere hundredvis af API-kald, reasoning-steps og tool-invocations for en enkelt brugerforespørgsel. Det multiplicerer inferens-behovet dramatisk.

Det er præcis her TPU 8i’s 384 MB on-chip SRAM bliver afgørende. SRAM er markant hurtigere end HBM til de hurtige, gentagne lookups som agentiske workflows kræver. Ved at tredoble SRAM-kapaciteten fra Ironwood positionerer Google sig til en fremtid, hvor inferens-volumen eksploderer.

For danske virksomheder og udviklere, der bygger AI-løsninger på Google Cloud, betyder det konkret lavere priser og bedre ydeevne for inferens-tunge workloads. Det gælder alt fra store sprogmodeller som Qwen 3.6 til specialiserede domænemodeller. Når prisen pr. forespørgsel falder, bliver det muligt at bygge AI-produkter der tidligere var for dyre at drifte.

Konklusion: Siliciumkrigen intensiveres

Googles TPU 8-split er et signal om, at AI-chipkrigen er gået ind i en ny fase. Det handler ikke længere om at bygge den hurtigste chip. Det handler om at bygge den rigtige chip til det rigtige job. Og i en verden hvor inferens-volumen vokser hurtigere end træningsbehovet, er en dedikeret inferenschip med lavere pris pr. forespørgsel muligvis vigtigere end rå træningsydelse.

Nvidia er stadig den ubestridte leder inden for AI-silicium. Men med Google, Amazon og en række andre spillere der bygger specialiseret hardware, er monopolet under erosion. For udviklere og virksomheder er det godt nyt: mere konkurrence betyder lavere priser, bedre tooling og flere valgmuligheder.