Google en pourparlers avec Marvell pour créer de nouvelles puces d’IA pour l’inférence TPU

Un changement stratégique dans l'infrastructure informatique

À une époque définie par l'expansion incessante de l'IA générative (Generative AI), le goulot d'étranglement pour les géants de la technologie n'est plus seulement l'excellence logicielle, mais la capacité physique brute du matériel. Récemment, des rapports ont fait surface indiquant que Google est en discussion avancée avec Marvell Technology pour co-développer des puces d'IA personnalisées. Cette décision marque une escalade significative des efforts internes de Google pour optimiser l'infrastructure de ses centres de données, ciblant spécifiquement les besoins énergétiques élevés de l'inférence des grands modèles de langage (LLM).

Pour ceux qui suivent la « guerre du silicium », la collaboration entre un hyperscaler comme Google — qui possède déjà l'écosystème de puces d'IA sans doute le plus mature avec ses Tensor Processing Units (TPU) — et un spécialiste de la conception de puces comme Marvell, est hautement significative. En s'associant à Marvell, Google cherche à accélérer le développement d'un matériel de nouvelle génération capable de gérer la complexité croissante des tâches d'IA tout en réduisant le coût total de possession.

L'objectif : améliorer l'efficacité de l'inférence IA

Au cœur de ce partenariat se trouvent deux initiatives de puces distinctes mais complémentaires. Premièrement, le développement d'une TPU de nouvelle génération conçue spécifiquement pour les exigences rigoureuses des charges de travail d'IA modernes. Deuxièmement, la création d'une unité de traitement de la mémoire (MPU) spécialisée.

L'accent mis sur l'« inférence » est ici critique. Alors que l'entraînement des modèles d'IA nécessite une puissance de calcul parallèle massive, l'inférence — l'acte par lequel un modèle fournit une réponse à un utilisateur — est ce qui définit le coût opérationnel quotidien des services d'IA. Alors que des milliards de requêtes frappent Google Search et d'autres plateformes, l'efficacité de chaque microseconde passée sur l'inférence devient un levier financier massif.

Type d'initiative	Domaine prioritaire	Impact anticipé
TPU de nouvelle génération	Calcul central	Amélioration des FLOPS par watt pour l'exécution des modèles
Unité de traitement de la mémoire	Débit des données	Réduction de la latence pour les tâches à large bande passante
Stratégie d'optimisation	Intégration logicielle-matérielle	Réduction des dépenses opérationnelles à grande échelle

Pourquoi Marvell Technology ?

Marvell s'est imposé comme un leader de l'industrie dans la conception de silicium personnalisé, particulièrement dans les applications axées sur l'infrastructure. En se spécialisant dans la connectivité haute vitesse et le silicium des contrôleurs de stockage, Marvell apporte l'expertise architecturale qui complète l'équipe interne TPU de Google.

La stratégie de Google semble être double : tirer parti de ses TPU internes pour le travail de fond lourd tout en externalisant des composants spécifiques à Marvell pour bénéficier de leur bibliothèque spécialisée de PI et de leur efficacité de conception éprouvée. Cette approche « hybride » permet à Google de maintenir l'avantage concurrentiel fourni par son architecture propriétaire tout en itérant les cycles matériels plus rapidement qu'un effort de développement en solitaire ne le permettrait.

L'importance stratégique du silicium personnalisé

Comme nous l'avons observé chez Creati.ai, l'industrie s'éloigne d'un paradigme de GPU à usage général pour s'orienter vers un silicium hautement spécialisé et spécifique au domaine. Cette transition est motivée par trois facteurs principaux :

Contraintes de mise à l'échelle : À mesure que les modèles augmentent en taille, l'architecture matérielle traditionnelle atteint les limites de la bande passante mémoire.
Efficacité des coûts : Avec l'inférence IA devenant un service de type marchandise, la réduction de la consommation d'énergie par jeton est la clé de la rentabilité.
Intégration verticale : Contrôler l'ensemble de la pile — de la TPU aux frameworks logiciels — donne à Google un avantage de rapidité de mise sur le marché que les fournisseurs de matériel tiers ne peuvent égaler.

Perspectives : Les implications pour le paysage de l'IA

Les effets d'entraînement d'un partenariat potentiel entre Google et Marvell se feront sentir dans toute l'industrie des semi-conducteurs. Des entreprises comme NVIDIA, qui dominent actuellement le marché des puces d'IA d'entreprise, subiront probablement une pression continue à mesure que les hyperscalers deviendront plus compétents dans la conception de leur propre silicium.

Pour l'écosystème plus large de l'IA, cela signifie un accès moins coûteux, plus rapide et plus efficace aux capacités d'inférence. Si le développement de ces nouvelles puces réussit, il permettra à Google d'intégrer une IA plus complexe dans ses produits, de Search à Workspace, sans les coûts énergétiques prohibitifs qui freinent actuellement le déploiement de l'IA à l'échelle de l'entreprise.

Considérations clés pour l'industrie

Diversification de la chaîne d'approvisionnement : Réduire la dépendance à un seul écosystème d'architecture.
Spécialisation vs Généralisation : Le passage rapide vers des unités dédiées comme l'unité de traitement de la mémoire proposée.
Économie de l'infrastructure : L'impact à long terme sur les modèles de tarification du cloud computing.

Alors que Google continue d'affiner sa feuille de route, l'intégration des prouesses spécialisées de Marvell sera un développement que nous continuerons de surveiller de près. La course à la maîtrise du matériel d'inférence IA est essentiellement une course à la maîtrise de l'économie de l'internet du futur, et cette négociation suggère que Google n'est pas prêt à céder du terrain.