
Alors que la technologie des réseaux taillés pour l’IA est en plein essor, un nouveau groupe s’est formé pour s’assurer que l’Ethernet puisse faire face à la demande.
L’initiative Ethernet for Scale-Up Networking (ESUN), qui regroupe AMD, Arista, ARM, Broadcom, Cisco, HPE Networking, Marvell, Meta, Microsoft et Nvidia, rejoints par OpenAI et Oracle, promet de faire progresser la technologie réseau afin de gérer la connectivité scale-up de mise à l’échelle verticale dans les infrastructures IA accélérées. L’ESUN a été créée par l’organisation à but non lucratif Open Compute Project, qui organise cette semaine (du 14 au 16 octobre) son sommet mondial OCP 2025 à San Jose, en Californie. « Les charges de travail liées à l’IA remodèlent les architectures des centres de données modernes, et les solutions réseau doivent évoluer pour répondre à la demande croissante », a écrit Martin Lund, vice-président exécutif du groupe Common Hardware de Cisco, dans un article de blog. « ESUN rassemble les opérateurs et les fournisseurs d’infrastructures d’IA afin d’harmoniser les normes ouvertes, d’intégrer les meilleures pratiques et d’accélérer l’innovation dans les solutions Ethernet pour les réseaux scale-up. »
ESUN se concentrera exclusivement sur la commutation et le framing Ethernet ouverts et basés sur des normes pour les réseaux scale-up, à l’exclusion des piles côté hôte, des protocoles non Ethernet, des solutions de couche d’application et des technologies propriétaires. « Le groupe élargira le développement et l’interopérabilité des interfaces réseau XPU et des commutateurs Ethernet ASIC pour les réseaux scale-up », a déclaré l’Open Compute Project dans un blog : « L’accent sera initialement mis sur le framing et la commutation Ethernet L2/L3, permettant des topologies à saut unique (Single-Hop) et multi-sauts (Multi-Hop) robustes, sans perte et résistantes aux erreurs. »
ESUN, UEC et UALink
Il est important de noter que l’OCP indique que l’ESUN collaborera activement avec d’autres fournisseurs qui cherchent à faire progresser l’Ethernet pour les réseaux IA, telles que l’Ultra-Ethernet Consortium (UEC) et l’IEEE 802.3 Ethernet, afin d’harmoniser les normes ouvertes, d’intégrer les meilleures pratiques et d’accélérer l’innovation. Créé en 2023 par AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta et Microsoft, dans le but de réunir les leaders du secteur afin de construire une architecture de pile de communication complète basée sur Ethernet pour les réseaux haute performance, l’UEC compte aujourd’hui plus de 75 membres. Un autre groupe de développement multi-fournisseurs, le consortium Ultra Accelerator Link (UALink), a récemment publié sa première spécification visant à fournir une interconnexion standard ouverte pour les clusters d’IA concurrente du NVLink de Nvidia. La spécification UALink 200G 1.0 a été élaborée par plusieurs des 75 membres du groupe, parmi lesquels AMD, Broadcom, Cisco, Google, HPE, Intel, Meta, Microsoft et Synopsys. « L’UALink définit la technologie nécessaire pour prendre en charge un débit maximal de 200 gigatransfers par seconde (GT/s) par canal ou voie entre les accélérateurs et les commutateurs entre un maximum de 1 024 pods informatiques d’IA », a rappelé le consortium. « ESUN s’appuiera autant que possible sur les travaux de l’IEEE et de l’UEC pour Ethernet », ont déclaré Jayshree Ullal, CEO d’Arista, et Hugh Holbrook, directeur du développement, dans un article de blog consacré à ESUN. À cette fin, MM Ullal et Holbrook ont décrit un cadre modulaire pour la mise à l’échelle d’Ethernet reposant sur trois éléments clés :
1- Des en-têtes Ethernet communs pour l’interopérabilité : ESUN s’appuiera sur Ethernet pour permettre la plus large gamme de protocoles et de cas d’utilisation de couche supérieure.
2- Une couche de liaison de données Ethernet ouverte : elle fournit la base pour les collectifs d’IA avec des performances élevées à l’échelle du cluster XPU. En sélectionnant des mécanismes basés sur des normes, tels que Link-Layer Retry (LLR), Priority-based Flow Control (PFC) et Credit-based Flow Control (CBFC), ESUN offre rentabilité, flexibilité et performances à ces réseaux. Même des retards mineurs peuvent bloquer des milliers d’opérations simultanées.
3- Une couche physique Ethernet : en s’appuyant sur la couche physique Ethernet présente partout, l’interopérabilité entre plusieurs fournisseurs et une large gamme d’options d’interconnexion optique et cuivre est assurée.
« ESUN peut prendre en charge tout transport de couche supérieure, y compris celui basé sur SUE-T (Scale-Up Ethernet Transport), un projet OCP lancé grâce à la contribution SUE (Scale-Up Ethernet) de Broadcom à l’OCP. SUE-T cherche à définir des fonctionnalités pouvant être facilement intégrées dans un XPU basé sur ESUN pour la planification de la fiabilité, l’équilibrage de charge et le regroupement des transactions, qui sont des facteurs essentiels d’amélioration des performances pour certaines charges de travail IA », ont ajouté MM Ullal et Holbrook.
« En substance, le framework ESUN permet à un ensemble d’accélérateurs individuels de se transformer en superordinateur IA unique et puissant, où les performances du réseau sont directement liées à la vitesse et à l’efficacité du développement et de l’exécution des modèles IA », ont encore écrit MM Ullal et Holbrook. « L’approche par couches de ESUN et de SUE-T over Ethernet favorise l’innovation sans fragmentation. Les développeurs d’accélérateurs XPU conservent une flexibilité dans leurs choix côté hôte, tels que les modèles d’accès (push vs pull, et mémoire vs sémantique de streaming), la fiabilité du transport (hop-by-hop vs end-to-end), les règles de classement et les stratégies de contrôle de la congestion, tout en conservant leurs choix de conception du système. L’initiative ESUN adopte une approche pratique pour des améliorations itératives. »
Des gains dans les fabrics réseau IA prévus par Gartner
Selon Gartner, les fabrics d’IA scale-up (Scale-up AI fabrics, SAIF) ont récemment suscité beaucoup d’intérêt dans le secteur. Le cabinet d’études prévoit une croissance massive des SAIF pour soutenir les initiatives d’infrastructure d’IA jusqu’en 2029. « Le paysage des fournisseurs restera dynamique au cours des deux prochaines années, avec l’émergence de multiples écosystèmes technologiques », a déclaré Gartner dans son rapport intitulé « What are “Scale-Up” AI Fabrics and Why Should I Care ? » (« Les fabrics d’IA Scale-Up : qu’est-ce que c’est et pourquoi devrais-je m’y intéresser ? ») « Les fabrics d’IA Scale-Up (SAIF) offrent une interconnectivité réseau physique à haut débit et faible latence, ainsi qu’une interaction mémoire améliorée entre les processeurs d’IA proches », a expliqué Gartner. « Les implémentations actuelles des SAIF sont des plateformes propriétaires des fournisseurs, et il existe des limitations de proximité (en général, les SAIF sont confinées à un seul rack ou une seule rangée). Dans la plupart des cas, Gartner recommande d’utiliser Ethernet pour connecter plusieurs systèmes SAIF entre eux. Nous pensons que l’échelle, les performances et la prise en charge d’Ethernet sont optimales », a poursuivi le cabinet d’étude.
« De 2025 à 2027, nous prévoyons des changements majeurs dans cette technologie, notamment l’essor de l’offre SAIF de Nvidia et d’autres options SAIF. À la mi-2025, ce segment technologique restera dominé par Nvidia, qui fait évoluer et étend sa technologie NVLink à des partenaires tels que Marvell, Fujitsu, Qualcomm et Astera Labs afin de l’intégrer directement à l’offre SAIF de Nvidia (commercialisée sous le nom de NVLink Fusion) », a ajouté Gartner. « Cependant, des écosystèmes concurrents font leur apparition, notamment UALink et d’autres, et le résultat de ces initiatives pourrait déboucher sur un écosystème multifournisseurs, une plus grande flexibilité et une réduction du verrouillage, et conduire à un environnement plus concurrentiel », a avancé le cabinet d’étude.