Google Cloud lance les TPU Ironwood et des instances sur Axion

Après une présentation en avril dernier, les TPU de 7ème génération de Google Cloud vont être accessibles dans les prochaines semaines. Ils promettent plus de performances pour les tâches d’inférence. En parallèle, le fournisseur lance en preview d’autres instances sur les puces Axion basées sur Arm.

A l’occasion de l’évènement .Next de Google Cloud à Las Vegas en avril dernier, Sundar Pichai, CEO d’Alphabet a présenté la dernière génération de TPU (Tensor Processing Unit) nommée Ironwood. Cette puce succède à Trillium dévoilé en mars 2024. Aujourd’hui, le fournisseur annonce la disponibilité dans les prochaines semaines de ces TPU pour différents traitements IA (entraînement de grands modèles, inférences,…). La firme nous indique que les Etats-Unis seront les premiers servis et que l’Europe en profitera au début 2026. Parmi les premiers clients, Anthropic a récemment indiqué son intention d’étendre son partenariat avec Google Cloud en intégrant jusqu’à un million de TPU.

Dans le détail, les TPU Ironwood seront accessibles en pods de 256 ou de 9 126 puces. Dans cette dernière configuration, Google Cloud revendique une capacité de calcul de 45,2 exaflops (en précision FP8). Chaque puce est capable de traiter 4,16 Tflops. En matière de mémoire, les pods peuvent gérer jusqu’à 192 Go de HBM3e et améliorent la bande passante à 7,2 To/s (contre 1,638 To/s pour les Trillium). Le transfert de données entre les puces est aussi amélioré avec la technologie ICI (inter-chip interconnect) à 1,2 To/s.  A noter que les TPU de 7ème génération sont fournis avec SparseCore, décrit comme un accélérateur spécialisé dans le traitement des embeddings volumineux. Il est accompagné de Pathway, un runtime ML développé par Deepmind proposant un calcul distribué entre plusieurs puces TPU. Par ailleurs, Ironwood est une réponse à la concurrence développant leurs propres puces IA comme les Trainium d’AWS ou Maia 100 chez Microsoft.

Davantage d’instances sur les puces Axion basées sur Arm

En parallèle des annonces sur Ironwood, Google Cloud étoffe le catalogue d’instances basées sur la puce Axion basée sur Arm. Pour mémoire, elle a été présentée en avril 2024 et a été élaborée à partir du design Neoverse 2 de la société. Il s’agit là encore d’une réponse à la concurrence d’AWS qui propose ses puces Graviton depuis 2018 et de Microsoft avec les Cobalt 100 dévoilés à la fin 2023. La plateforme Axion repose sur Titanium, un système de microcontrôleurs en silicium personnalisés construits par Google et « d’une carte de déchargement dédiée qui permet l’accélération matérielle des services de virtualisation, de façon à décharger le traitement du processeur hôte, et à libérer des ressources pour vos charges de travail », comme l’explique Google Cloud.

Après les instances C4A embarquant les puces Axion, le fournisseur présente en preview les instances N4A et l’infrastructure bare metal C4A. Les premières prennent en charge jusqu’à 64 processeurs virtuels et 512 Go de mémoire DDR5. Elles adressent des workload variés comme les applications conteneurisées, les bases de données, l’analytique. De son côté, l’architecture C4A Metal propose des serveurs physiques dédiés pouvant embarquer jusqu’à 96 vCPU et 768 Go de mémoire DDR5. Selon Google, cette infrastructure sert à des tâches comme le développement d’applications mobiles, des systèmes embarqués,… Le fournisseur n’a pas donné de dates sur la disponibilité générale, ni sur les tarifs des instances.

chevron_left
chevron_right