Google dévoile des TPU à grande mémoire pour l'entraînement IA
Fazen Markets Research
Expert Analysis
Accroche: Le 22 avril 2026, Google a annoncé deux conceptions de silicium dédiées — un TPU pour l'entraînement et un TPU pour l'inférence — que la société affirme intégrer de grandes quantités de SRAM sur puce afin de réduire les goulots d'étranglement mémoire pour les grands modèles de langage et autres charges de travail d'IA générative (CNBC, 22 avr. 2026). Ce mouvement représente une escalade directe de la stratégie pluriannuelle de Google visant à internaliser l'infrastructure critique de l'IA et à offrir des performances différenciées dans Google Cloud. Les indicateurs industriels continuent de montrer Nvidia comme le fournisseur externe dominant d'accélérateurs pour centres de données ; les estimations situent la part de Nvidia dans les déploiements de GPU IA à environ 75–85 % en 2025 (estimations industrielles). Les nouvelles puces de Google témoignent donc à la fois d'une optimisation interne — réduisant la dépendance aux accélérateurs tiers — et d'une pression renouvelée sur la dynamique d'approvisionnement des hyperscalers.
Contexte
L'annonce de Google du 22 avr. 2026 intervient après une décennie de développement des TPU commencée avec le premier TPU révélé en 2016 et des itérations successives visant à accélérer les multiplications matricielles au cœur des réseaux neuronaux. Sur cette période, le paysage concurrentiel a évolué des processeurs généraux (CPU) vers des accélérateurs spécialisés : GPU, ASIC personnalisés et FPGA. Les fournisseurs externes, principalement Nvidia, ont construit à la fois une part de marché et un écosystème logiciel comprenant bibliothèques, compilateurs et familiarité des développeurs — un avantage structurel qui a freiné un remplacement rapide.
Les parts de marché des fournisseurs cloud fournissent un contexte pertinent. Les données de Synergy Research Group et d'enquêtes industrielles comparables montrent qu'AWS conservait la plus grande part d'infrastructure cloud avec environ 33 % des dépenses mondiales en 2025, Microsoft Azure près de 22 % et Google Cloud autour de 10 % (Synergy Research Group, 2025). Ces dispersions signifient qu'un déploiement stratégique de TPU par Google affecte d'abord le profil de coût et de performance de Google Cloud avant d'altérer de manière significative le marché plus large des accélérateurs tiers.
D'un point de vue approvisionnement et CAPEX, les hyperscalers se tournent de plus en plus vers l'intégration verticale pour réduire les coûts et optimiser les performances. La famille Graviton/Trainium d'Amazon et les initiatives silicon d'OpenBMC/IA de Meta sont des tentatives comparables d'internaliser la spécialisation. La nouvelle annonce de Google doit être lue comme la prochaine étape de cette tendance — un pari que du silicium sur mesure avec significativement plus de SRAM sur puce offrira des bénéfices mesurables en TCO (coût total de possession) et en latence pour l'échelle de modèles demandée par les clients.
Analyse des données
L'article de CNBC du 22 avr. 2026 confirme l'existence de deux puces distinctes : l'une optimisée pour les charges d'entraînement à grande échelle et l'autre pour l'inférence (CNBC, 22 avr. 2026). Google a mis en avant la quantité de mémoire statique (SRAM) sur le package comme différenciateur clé ; la SRAM réduit la latence et la pénalité énergétique liée aux transferts de tenseurs entre la DRAM externe et les matrices de calcul. Ce choix de conception signale un effort pour déplacer le goulot d'étranglement de performance hors de la bande passante mémoire externe vers une utilisation soutenue du calcul sur puce, un compromis qui augmente la surface silicium par puce mais peut produire un débit effectif supérieur par watt dans des contextes de centres de données contraints.
En revanche, le leader du marché externe, Nvidia, a bâti un modèle économique autour de GPU haute performance avec d'importantes piles HBM et une couche logicielle extensive — CUDA, cuDNN et un ensemble de frameworks optimisés. Les estimations industrielles en 2025 situaient la part de Nvidia dans les déploiements d'accélérateurs IA en centres de données à environ 75–85 % (estimations industrielles). Cette échelle confère deux avantages : une base large d'optimisations logicielles et un marché secondaire développé pour des recettes d'entraînement et d'inférence validées que les entreprises et laboratoires peuvent adopter sans réingénierie profonde de leurs piles.
Un second point de données pertinent est la répartition des parts cloud mentionnée plus haut : avec Google Cloud à environ 10 % des dépenses d'infrastructure contre 33 % pour AWS et 22 % pour Azure (Synergy Research Group, 2025), tout succès silicon de Google se manifestera d'abord comme une amélioration de l'économie unitaire pour ses propres centres de données. Même une migration réussie des charges internes de Google Cloud hors des accélérateurs Nvidia se traduirait initialement par des achats tiers déplacés concentrés sur la ligne d'approvisionnement de Google plutôt que par une baisse systémique et immédiate des ventes de Nvidia au sein de l'ensemble des hyperscalers.
Implications sectorielles
Pour les OEM de centres de données et les équipes d'approvisionnement des hyperscalers, les puces de Google ajouteront un nouvel axe de concurrence fournisseur. Si les conceptions TPU tiennent leurs promesses en matière de latence et de débit dans des charges réelles, Google Cloud pourra commercialiser des coûts d'inférence plus bas et des SLA différenciés à des clients stratégiques. Avec le temps, cela pourrait exercer une pression sur les marges de Nvidia pour les charges où la pile de Google est un remplacement « plug‑in ». Cependant, le remplacement dépendra de la portabilité de l'écosystème : les entreprises valorisent à la fois la performance brute et une large compatibilité logicielle.
Pour Nvidia, l'impact à court terme est probablement limité : le TAM de Nvidia n'est pas un compartiment à somme nulle qui sera entièrement cédé. Les cycles produits de Nvidia, son fossé logiciel et sa base installée confèrent une adhérence ; de nombreux pipelines IA d'entreprise sont fortement optimisés pour CUDA et les toolchains centrés sur Nvidia. Le vrai test sera de savoir si les conceptions TPU de Google seront ouvertes de manière à permettre une adoption tierce, ou si elles resteront propriétaires et bénéficieront uniquement à Google Cloud. Un déploiement propriétaire affecterait principalement les dépenses tierces de Google et celles de ses clients exécutant leurs charges sur Google Cloud.
Les participants à la chaîne d'approvisionnement devraient surveiller la demande en fonderie et en packaging. Une densité plus élevée de SRAM sur le package implique des changements dans l'économie au niveau du die et potentiellement une demande accrue pour des partenaires d'assemblage avancé et la licence d'IP mémoire spécialisée. Des fournisseurs d'équipements comme ASML et des fondeurs/ateliers de packaging avancé pourraient voir une portée incrémentale si Google évolue vers une échelle interne analogue à Amazon et Apple, bien que ce résultat dépende d'engagements de volume de production que Google n'a pas divulgués.
Évaluation des risques
Le risque d'adoption est materia
Position yourself for the macro moves discussed above
Start TradingSponsored
Ready to trade the markets?
Open a demo account in 30 seconds. No deposit required.
CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money.