
Grâce à une télémétrie à la microseconde, Aria Networks cible le réseau Ethernet back-end qui relie les GPU dans les clusters IA.
De plus en plus de startups spécialisées dans le réseau s’efforcent de relever les défis liés aux réseaux IA. Aria Networks espère que son approche différenciée, basée sur une télémétrie riche, résoudra les problèmes concrets rencontrés par les opérateurs réseau. Mansour Karam, fondateur et CEO de la société a de l’expérience dans le domaine du réseau. Il a rejoint Arista en 2006, alors que l’entreprise en était à ses débuts, avant de passer plusieurs années chez Big Switch Networks pendant la première vague du SDN (software defined network). Il a également fondé Asptra, fournisseur de SDN racheté en 2020 par Juniper.
Avec l’IA, les architectures réseaux évoluent. Celles de l’Ethernet back-end qui connectent les clusters de GPU ont des exigences différentes de celles des infrastructures cloud traditionnelles. « « Si le réseau ne fonctionne pas de manière optimale, il n’est pas possible d’utiliser les GPU de manière optimale », a déclaré M. Karam. « Les GPU sont extrêmement coûteux, et ce sont eux qui génèrent les revenus. »
Vers une architecture centrée sur les chemins
Les opportunités du marché et les exigences de l’IA sont les principales raisons qui ont poussé M. Karam à créer Aria Networks. Celui-ci souligne que, si dans l’ensemble, les réseaux de datacenters ont connu une croissance à un chiffre au cours des dix ou vingt dernières années, les réseaux IA sont en train de changer radicalement cette trajectoire. « Quand on constate une croissance aussi explosive, l’écart avec l’équipement des clients est manifeste, et ce type d’opportunités offre vraiment une chance aux nouveaux entrants », a fait remarquer le dirigeant. L’approche technique d’Aria diffère de celle des fournisseurs actuels, car elle se concentre sur l’optimisation des chemins de bout en bout plutôt que sur les performances individuelles des commutateurs.
Mansour Karam affirme que les fournisseurs de réseaux traditionnels se considèrent avant tout comme des fabricants de commutateurs, leurs efforts en matière de logiciels se concentrant sur les systèmes d’exploitation des commutateurs plutôt que sur les modèles opérationnels à l’échelle du cluster. « Il ne s’agit plus seulement du commutateur lui-même, mais véritablement du chemin de bout en bout », explique-t-il. Et d’ajouter « quand on examine ces tâches planifiées, on voit que ce sont les chemins empruntés par le trafic à travers le réseau, de bout en bout, qui importent vraiment. »
Une télémétrie de l’ordre de la microseconde
Aria cible le réseau Ethernet back-end qui relie les GPU dans les clusters IA. L’entreprise utilise le silicium de Broadcom et le système d’exploitation réseau open source SONiC. La principale différence d’Aria réside dans l’extraction et l’exploitation des données télémétriques réseau qui existent déjà dans les puces de commutation modernes, mais qui restent largement inexploitées en dehors des environnements hyperscale. « Pour obtenir ces performances, nous avons besoin de données, de télémétrie, et celle-ci existe aujourd’hui », reconnait-il. « Si l’on regarde les ASIC des puces comme celles de Broadcom, on voit qu’ils disposent d’une multitude de données télémétriques avec une résolution de l’ordre de la microseconde », observe-t-il. Selon Mutspaha Karam, le défi consiste à trouver comment extraire, stocker, traiter et exploiter efficacement les données de télémétrie à grande échelle, ce à quoi Aria s’efforce de parvenir avec sa plateforme.
La société livrera plus de détails techniques sur sa plateforme à mesure qu’elle développera sa technologie. L’entreprise a dévoilé certaines des technologies fondamentales sur lesquelles elle s’appuie, notamment SONiC et la télémétrie à la microseconde, et le reste sera dévoilé progressivement. « La puissance de l’IA est énorme », s’est enthousiasmé M. Karam. « Et le fait de disposer de cette technologie comme outil, combiné aux données qui permettent de résoudre ces problèmes et d’optimiser les performances, offre des opportunités immenses. »
Pas de chatbot IA en plus
Aria ne se contente pas de fabriquer des équipements réseau pour les réseaux IA, l’entreprise utilise également l’IA pour améliorer les réseaux. Le dirigeant établit une distinction claire entre les approches déterministes basées sur des règles utilisées dans le passé et les méthodes probabilistes basées sur l’IA pour l’optimisation des réseaux. « Lorsque j’ai créé Apstra, nous ne disposions pas de l’IA, et nous avons tout fait de manière très déterministe. Tout était basé sur des règles », se souvient-il. Cette approche déterministe fonctionnait bien dans des environnements contrôlés, mais elle avait ses limites. Les méthodes probabilistes basées sur l’IA offrent des avantages pour la détection intuitive des performances et la réaction dynamique dans des scénarios complexes. « Lorsque l’on essaye d’être plus intuitif dans la détection des problèmes de performances ou dans la réaction à la volée, les approches probabilistes, l’IA, apportent un avantage unique », a ajouté M. Karam.
Mais ce dernier souligne que le simple fait d’ajouter des capacités d’IA aux architectures existantes ne donnera pas de résultats significatifs. Il critique les fournisseurs qui ajoutent des chatbots IA aux systèmes existants. « Très souvent, quand les fournisseurs disent qu’ils « apportent », ils se contentent en réalité d’ajouter un chatbot IA à l’architecture existante », a pointé M. Karam. « Mais avec l’IA, ce que nous avons constaté à maintes reprises dans tous les domaines, c’est que pour qu’elle soit efficace, il faut vraiment la spécialiser pour ce domaine, c’est-à-dire construire une architecture optimisée pour l’IA à partir de zéro. »