Google svela TPU ad alta memoria per l'addestramento AI
Fazen Markets Research
Expert Analysis
Lead: Il 22 aprile 2026 Google ha annunciato due progetti di silicio costruiti su misura — un TPU per l'addestramento e un TPU per l'inferenza — che, secondo la società, integrano grandi quantità di SRAM sul chip per ridurre i colli di bottiglia di memoria per i grandi modelli linguistici e altri carichi di lavoro di AI generativa (CNBC, 22 aprile 2026). Il passo rappresenta un'escalation diretta nella strategia pluriennale di Google di internalizzare infrastrutture AI critiche e offrire prestazioni differenziate in Google Cloud. I tracker del settore continuano a mostrare Nvidia come fornitore esterno dominante di acceleratori per data center; le stime collocano la quota di Nvidia nelle installazioni di GPU AI intorno al 75–85% nel 2025 (stime del settore). I nuovi chip di Google parlano dunque sia di ottimizzazione interna — riducendo la dipendenza da acceleratori di terze parti — sia di rinnovata pressione sulle dinamiche di approvvigionamento degli iperscalatori.
Contesto
L'annuncio di Google del 22 aprile 2026 segue un decennio di sviluppo dei TPU iniziato con il primo TPU rivelato nel 2016 e iterazioni successive mirate ad accelerare le moltiplicazioni di matrici integrali alle reti neurali. In quel periodo il panorama competitivo è passato da CPU general‑purpose verso acceleratori specializzati: GPU, ASIC personalizzati e FPGA. I fornitori esterni, in prima linea Nvidia, hanno costruito sia quota di mercato sia un ecosistema software che include librerie, compilatori e familiarità degli sviluppatori — un vantaggio strutturale che ha ostacolato una rapida sostituzione.
Le quote di mercato dei fornitori cloud forniscono un contesto rilevante. Dati di Synergy Research Group e indagini industriali comparabili mostrano AWS ancora in testa con circa il 33% della spesa infrastrutturale globale nel 2025, Microsoft Azure vicino al 22% e Google Cloud intorno al 10% (Synergy Research Group, 2025). Queste dispersioni implicano che un roll‑out strategico di TPU da parte di Google impatterà principalmente in modo diretto il profilo di costo e prestazioni di Google Cloud prima di modificare in modo significativo il mercato più ampio degli acceleratori di terze parti.
Dal punto di vista della procurement e del capex, gli iperscalatori hanno guardato sempre più all'integrazione verticale per ridurre i costi e ottimizzare le prestazioni. Le famiglie Graviton/Trainium di Amazon e le iniziative OpenBMC/silicio AI di Meta sono tentativi comparabili di internalizzare la specializzazione. Il nuovo annuncio di Google va letto come il passo successivo in questa tendenza — una scommessa che un silicio su misura con molta più SRAM on‑chip fornirà benefici misurabili in termini di TCO (costo totale di proprietà) e latenza per la scala di modelli richiesta dai clienti.
Analisi dei dati
Il pezzo di CNBC del 22 aprile 2026 conferma l'esistenza di due chip distinti: uno tarato per carichi di addestramento su larga scala e un altro ottimizzato per l'inferenza (CNBC, 22 aprile 2026). Google ha enfatizzato la quantità di memoria statica (SRAM) sul package come differenziatore chiave; la SRAM riduce la latenza e la penalità energetica dello spostamento dei tensori tra DRAM esterna e le matrici di calcolo. Questa scelta progettuale segnala uno sforzo volto a spostare il collo di bottiglia delle prestazioni dalla larghezza di banda della memoria esterna verso un utilizzo sostenuto del calcolo on‑die, un trade‑off che aumenta l'area di silicio per chip ma può generare maggiore throughput effettivo per watt in contesti di data center vincolati.
Per contro, il leader di mercato esterno prevalente, Nvidia, ha costruito un modello di business attorno a GPU ad alte prestazioni con grandi stack HBM e a un ampio strato software — CUDA, cuDNN e una serie di framework ottimizzati. Le stime del settore nel 2025 collocavano la quota di Nvidia nelle distribuzioni di acceleratori AI nei data center intorno al 75–85% (stime del settore). Questa scala conferisce due vantaggi: una base ampia di ottimizzazioni software e un mercato secondario profondo per ricette validate di addestramento e inferenza che imprese e laboratori possono adottare senza re‑ingegnerizzare le proprie stack.
Un secondo dato rilevante è la distribuzione delle quote cloud citata in precedenza: con Google Cloud intorno al 10% della spesa infrastrutturale rispetto ad AWS 33% e Azure 22% (Synergy Research Group, 2025), qualsiasi successo siliconico di Google si manifesterà prima come miglioramenti dell'economia unitaria per i data center di Google. Anche una migrazione di successo dei carichi interni di Google Cloud fuori dagli acceleratori Nvidia si tradurrebbe inizialmente in acquisti di terze parti ridotti concentrati nella linea di procurement di Google, piuttosto che in un calo sistemico e immediato delle vendite Nvidia attraverso l'intero cohort di iperscalatori.
Implicazioni per il settore
Per gli OEM di data center e i team di procurement degli iperscalatori, i chip di Google aggiungeranno una nuova dimensione di competizione tra fornitori. Se i design TPU manterranno le promesse di miglioramento di latenza e throughput in carichi reali, Google Cloud potrà commercializzare costi di inferenza inferiori e SLA differenziati a clienti strategici. Nel tempo questo potrebbe mettere pressione sui margini di Nvidia per quei carichi in cui lo stack di Google è un sostituto "drop‑in". Tuttavia, la sostituzione è condizionata dalla portabilità dell'ecosistema: le imprese valorizzano sia la performance pura sia l'ampia compatibilità software.
Per Nvidia le implicazioni nel breve termine dovrebbero essere limitate: il TAM di Nvidia non è un paniere a somma zero che verrà completamente ceduto. I cicli di prodotto di Nvidia, il fossato software e la base installata esistente conferiscono una certa persistenza; molte pipeline AI aziendali sono fortemente ottimizzate per CUDA e gli strumenti centrati su Nvidia. La prova più significativa sarà se i design TPU di Google verranno aperti in modo da consentire l'adozione da parte di terzi, o se rimarranno proprietari, beneficiando solo Google Cloud. Un roll‑out proprietario inciderebbe principalmente sulla spesa di terze parti sostenuta da Google e dai suoi clienti che operano su Google Cloud.
I partecipanti alla supply‑chain dovrebbero monitorare la domanda di fonderie e packaging. Una maggiore densità di SRAM sul package implica cambiamenti nell'economia a livello di die e potenzialmente una maggiore domanda per partner di packaging avanzato e per licenze IP di memoria specializzate. Fornitori di attrezzature come ASML e case di packaging avanzato potrebbero vedere un incremento dell'ambito operativo se Google dovesse muoversi verso una scala in‑house analoga ad Amazon e Apple, sebbene quell'esito dipenda da impegni di volume di produzione che Google non ha divulgato.
Valutazione dei rischi
Il rischio di adozione è materia
Position yourself for the macro moves discussed above
Start TradingSponsored
Ready to trade the markets?
Open a demo account in 30 seconds. No deposit required.
CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money.