NVIDIA Mellanox MQM8790-HS2F Commutateur InfiniBand en production. Optimisation de l'interconnexion à faible latence pour RDMA/HPC/AI

May 27, 2026

Alors que la formation de modèles de langage de grande taille et les simulations HPC à exascale poussent les grappes GPU vers des dizaines de milliers de nœuds, les tissus Ethernet traditionnels luttent contre la latence de la queue et la congestion incast.Un centre national d'informatique sur l'IA a récemment relevé ce défi en déployant leNVIDIA Mellanox MQM8790-HS2F est une marque américaine de télévision.Les commutateurs InfiniBand sont l'épine dorsale de leur extension GPU à 800 nœuds.Cet article passe en revue leur parcours dans le monde réel des goulots d'étranglement aux gains mesurables en utilisant la RDMA et l'informatique en réseau pour optimiser les performances des interconnexions en grappes.

Contexte et défi: lorsque le réseau devient le goulot d'étranglement de l'IA

L'héritage du cluster de 400 nœuds du centre fonctionnait sur 100 Gb / s RoCEv2 Ethernet.Au cours des opérations All-ReduceLes architectes avaient besoin d'une plate-forme offrant une latence inférieure à une microseconde, un contrôle de flux sans perte, un système de gestion de l'énergie, un système de gestion de l'énergie, un système de gestion de l'énergie et un système de gestion de la qualité.et le support RDMA natif tout en réutilisant les optiques QSFP56 existantesAprès avoir évalué de multiples alternatives, leMQM8790-HS2F Commutateur InfiniBandIl s'est démarqué par sa bande passante HDR de 200 Gb/s et sa conception à haute densité de 40 ports.

Solution et déploiement: HDR Fat-Tree construit sur MQM8790-HS2F

La nouvelle interconnexion adopte une topologie d'arbre de graisse à deux couches, déployant 24 unités deNVIDIA Mellanox MQM8790-HS2F est une marque américaine de télévision.Chaque commutateur fournit 40 ports QSFP56 fonctionnant à 200 Gb/s par direction, offrant une capacité de commutation non bloquante de 16 Tb/s.Fiche de données MQM8790-HS2FetLes spécifications MQM8790-HS2Fpour permettre un routage adaptatif et un contrôle avancé de la congestion.L'utilisation d'InfiniBand RDMA natif pour les transferts de données à copie zéro, déchargeant plus de 95% de l'implication du processeur dans la communication.

Le centre a également réservé plusieursMQM8790-HS2F 200Gb/s HDR à 40 ports QSFP56avec SHARP (Protocole d'agrégation et de réduction hiérarchique évolutive),Les opérations collectives telles que All-Reduce sont déchargées des serveurs directement sur le réseau de commutationDans la formation 128‐GPU, cela a réduit le temps de communication de 32% sans aucun changement de code dans le cadre de l'IA.

Résultats et gains: faible latence, plus de débit, TCO contrôlé

Les indicateurs post-déploiement ont montré des améliorations spectaculaires:

La latence de point à point:Les tests de ping-pong MPI ont mesuré ~ 0,9 μs sur les liaisons HDR de 200 Gb/s, soit 65% de moins que la configuration RoCE héritée.
Efficacité de la communication collective:À l' échelle 512-GPU, All-Reduce a été terminé en seulement 18,3 ms, soit une réduction de 52% par rapport à la référence précédente.
Utilisation du réseau:Le routage adaptatif a maintenu l'équilibrage de la charge de liaison au-dessus de 92%, sans presque aucun point chaud de congestion.
Achats et opérations:LeLe prix MQM8790-HS2FLe taux de détection de l'infrarouge par port était d'environ 12% inférieur à celui des solutions 200G concurrentes.MQM8790-HS2F est compatibleLes optiques sont des modules QSFP56 standard, permettant une réutilisation complète du câblage existant.

¢Après avoir déménagé auMQM8790-HS2F Solution de commutateur InfiniBand, nous avons finalement atteint une mise à l'échelle quasi linéaire (0,9 efficacité) sur la formation de modèles de paramètres de trillions", a déclaré l'architecte principal du centre.Le réseau n'est plus le goulot d'étranglement Nous pouvons nous concentrer sur l'innovation de l'architecture de modèle au lieu de la planification de la communication. "

Conclusion et perspectives: élément de base des interconnexions à exascale

Ce cas réel démontre que laLes produits de la catégorie 1 doivent être présentés dans la catégorie 1 de la présente annexe.Avec 200 Gb/s HDR, RDMA natif, calcul SHARP en réseau et routage adaptatif,Il répond directement aux problèmes d'interconnexion à faible latence dans les clusters IA/HPC actuelsQue vous prévoyiez un centre de supercalculation universitaire ou la mise à niveau d'un nuage d'IA d'entreprise, leNVIDIA Mellanox MQM8790-HS2F est une marque américaine de télévision.Le changement est maintenant en production en série. Pour des références de conception détaillées, demandez à laFiche de données MQM8790-HS2FPour l'inventaire en temps réelMQM8790-HS2F à vendreles demandes de renseignements, contacter les fournisseurs de solutions agréés pour obtenir des prix et une assistance technique.