NVIDIA Mellanox MQM8790-HS2F en action: optimisation des interconnexions à faible latence pour les grappes RDMA/HPC/IA

April 10, 2026

Contexte et défi : Quand le réseau devient le goulot d'étranglement

Une organisation de recherche en IA en croissance rapide était confrontée à un problème familier : son cluster de plus de 200 GPU, utilisé pour l'entraînement de grands modèles linguistiques et les simulations de dynamique moléculaire, connaissait des temps d'achèvement de tâches imprévisibles. Malgré des nœuds de calcul puissants, le réseau Ethernet existant de 100 Gb/s souffrait de pics de latence extrêmes, de pertes de paquets dans des configurations d'incast, et d'une surcharge CPU élevée due au traitement traditionnel de la pile TCP/IP. L'équipe avait besoin d'une solution capable de fournir une latence constante inférieure à la microseconde, de prendre entièrement en charge RDMA pour GPU Direct, et de s'adapter sans mises à niveau majeures. Après avoir évalué les options disponibles, ils ont choisi le 迈络思(NVIDIA Mellanox) MQM8790-HS2F comme élément central de leur réseau de cluster de nouvelle génération.

Solution et déploiement : Intégration du commutateur InfiniBand MQM8790-HS2F

L'organisation a déployé le commutateur InfiniBand MQM8790-HS2F dans une topologie fat-tree à deux niveaux, connectant 128 nœuds de calcul (chacun équipé d'adaptateurs NVIDIA ConnectX-6 HDR) et 4 nœuds de stockage. Avec ses 40 ports QSFP56 fonctionnant à 200 Gb/s HDR, un seul fournissait une capacité de commutation non bloquante de 16 Tb/s, suffisante pour remplacer deux commutateurs Ethernet existants tout en réduisant la complexité du câblage. Le déploiement a tiré parti du support natif du MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 pour RDMA et GPUDirect, permettant un accès direct à la mémoire entre les GPU sur différents serveurs sans intervention du CPU.

Les principaux détails de mise en œuvre comprenaient :

Le routage adaptatif pour équilibrer automatiquement le trafic sur plusieurs chemins, éliminant les points chauds.
SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) pour l'agrégation dans le réseau, accélérant les opérations All-Reduce jusqu'à 2,5 fois.
Le contrôle de congestion au niveau du commutateur, empêchant le blocage en tête de ligne courant dans les environnements Ethernet avec pertes.

Avant l'achat, l'équipe d'ingénierie a examiné la fiche technique du MQM8790-HS2F et les spécifications du MQM8790-HS2F pour confirmer la compatibilité avec leurs câbles et émetteurs-récepteurs Mellanox existants. L'écosystème compatible MQM8790-HS2F, y compris les câbles optiques et en cuivre HDR, leur a permis de réutiliser 40 % de leurs investissements précédents en interconnexion, abaissant considérablement la barrière à la mise à niveau.

Résultats et avantages : Gains mesurables en performance et efficacité

Après la migration vers le réseau basé sur le par rapport aux gains de performance, cette étude de cas suggère un retour sur investissement inférieur à 12 mois basé uniquement sur les améliorations de l'efficacité de calcul., l'organisation a documenté trois catégories d'améliorations :

Réduction de la latence : La latence moyenne MPI ping-pong est passée de 2,1 µs (Ethernet RoCE) à 0,82 µs, avec une latence extrême pratiquement éliminée.Débit des tâches : Les tâches d'entraînement distribué (basées sur NCCL) se sont terminées 37 % plus rapidement grâce à la réduction de la surcharge de communication et à l'accélération SHARPv3.
Déchargement du CPU : RDMA sur InfiniBand a réduit l'utilisation du CPU pour le réseau d'environ 15 % à moins de 2 %, libérant des cœurs pour le calcul.Lors d'un benchmark de communication all-to-all sur 128 GPU, la
solution de commutateur InfiniBand MQM8790-HS2F a maintenu 198 Gb/s par port avec zéro perte de paquets, contre 112 Gb/s avec 1,2 % de perte sur le réseau Ethernet précédent. Pour les simulations financières effectuées par la même équipe, la variabilité des tâches a été réduite de 78 %, permettant des SLA plus stricts et des temps d'exécution prévisibles.

Résumé et perspectives : Un investissement pérenneCe déploiement réel démontre que le MQM8790-HS2F

est plus qu'un héros de fiche technique : il offre des avantages tangibles pour les charges de travail HPC et IA en production. La combinaison du débit HDR de 200 Gb/s, des 40 ports haute densité et de l'informatique avancée dans le réseau transforme l'économie des clusters en réduisant à la fois le temps d'achèvement des tâches et les frais d'exploitation. Pour les responsables informatiques évaluant le

prix du MQM8790-HS2F par rapport aux gains de performance, cette étude de cas suggère un retour sur investissement inférieur à 12 mois basé uniquement sur les améliorations de l'efficacité de calcul.Alors que l'organisation prévoit de doubler son nombre de GPU à plus de 400 nœuds, elle a déjà budgété des unités supplémentaires de MQM8790-HS2F à vendre pour maintenir une architecture fat-tree non bloquante. La capacité du commutateur à mélanger les vitesses HDR et EDR assure une voie de migration fluide à mesure que les anciens adaptateurs sont progressivement remplacés. Pour les architectes concevant des clusters de nouvelle génération axés sur RDMA, le

NVIDIA Mellanox MQM8790-HS2F offre une dorsale éprouvée et prête pour la production qui s'adapte de la recherche IA départementale au supercalcul à l'échelle exa.