Mellanox (NVIDIA) MQM9790-NS2F Commutateur InfiniBand en action. Optimisation des interconnexions à faible latence pour RDMA/HPC/AI

May 28, 2026

Dernières nouvelles de l'entreprise Mellanox (NVIDIA) MQM9790-NS2F Commutateur InfiniBand en action. Optimisation des interconnexions à faible latence pour RDMA/HPC/AI

Comme les grands groupes de formation à l'IA et les centres de calcul haute performance (HPC) poussent les exigences de bande passante et de latence du réseau à des niveaux sans précédent,Les solutions Ethernet traditionnelles luttent de plus en plus avec le contrôle de la congestion et la latence de queue imprévisible sous les charges de travail RDMAUn centre national de supercalculation a récemment été confronté à ce défi lors de la mise à niveau de son cluster GPU de nouvelle génération.Le produit est fabriqué à partir d'un matériau d'une valeur supérieure ou égale à la valeur nominale de la marque.Le groupe a été reconnu comme étant le "clé de fabrication" de l'entreprise, une décision qui a fondamentalement transformé le profil de performance de l'entreprise.

Contexte et défi: le mur de l'évolutivité

Le centre de supercalculation HDR InfiniBand était presque saturé, avec plus de 2 000 GPU en parallèle.Les opérations de communication collective comme all-reduce et all-to-all ont connu des pics de latence significatifs.Le réseau était devenu le principal goulot d'étranglement, provoquant un temps d'arrêt du GPU qui gaspillait à la fois des ressources informatiques et de l'énergie.Les ingénieurs ont estimé que près de 30% des cycles de calcul ont été perdus à cause des frais généraux de communication lors de courses d'entraînement distribuées à grande échelle.

L'équipe avait besoin d'un interrupteur capable de fournir400 Gb/s par portLe déploiement de la technologie HDR est en cours de mise au point, et la mise en place de la technologie HDR est en cours d'exécution.Fiche de données MQM9790-NS2FetLes spécifications MQM9790-NS2F, ils ont déterminé que leMQM9790-NS2F Commutateur InfiniBandElle offrait l'équilibre idéal entre densité, performance et ensemble de caractéristiques.

Solution et déploiement: une mise à niveau du tissu NDR à 64 ports

Le centre a déployé quatreMQM9790-NS2F 400Gb/s NDR OSFP à 64 portsles commutateurs utilisent une topologie de feuille de colonne vertébrale, qui interconnecte 2 048 GPUs sur 64 nœuds de calcul. Chaque nœud se connecte via un seul câble de séparation OSFP-to-4x100Gb/s,fournissant une bande passante globale de 400 Gbps par serveur tout en optimisant la densité de gestion des câbles.

Paramètre de déploiement Configuration
Modèle de commutateur NVIDIA Mellanox MQM9790-NS2F est un appareil de téléphonie mobile.(4 unités)
Configuration du port 64x OSFP, 400 Gb/s NDR par port
Total des GPU 2,048 (NVIDIA H100)
Caractéristiques du réseau SHARPv3, routage adaptatif, contrôle de la congestion

La clé de ce déploiement était de garantir uneCompatible avec le MQM9790-NS2Ffonctionnement avec des adaptateurs HDR existants. The switch’s automatic speed negotiation and link-layer translation allowed a phased migration strategy — legacy nodes operate at HDR speeds while new NDR-capable servers leverage full 400Gb/s bandwidthLe centre a également utilisé l'agrégation en réseau SHARPv3, réduisant le trafic total de plus de 65% pour les grandes tailles de messages couramment trouvées dans la formation LLM.

Pour ceux qui évaluent des améliorations similaires,Le prix MQM9790-NS2Fles enquêtes etMQM9790-NS2F à vendreLes résultats de l'étude ont montré que la disponibilité des données a considérablement augmenté chez les clients d'entreprises et de recherche.Le coût total de possession compétitif de l'interrupteur, en tenant compte du nombre inférieur d'interrupteurs en raison de la densité de 64 ports, en fait une option attrayante pour les projets de construction neuve et de rénovation..

Résultats et avantages: Gains de performance mesurables
  • Réduction totale de la latence (message de 1 Go):Réduit de 48 μs à 19 μs (60% d'amélioration)
  • Utilisation efficace de la GPU:Augmentation de 71% à 93% au cours de la formation à grande échelle
  • Temps d'achèvement du travail (équivalent GPT-3 175B):Réduit de 41%
  • La latence de la queue induite par le réseau (99e centile):Coupe de 210 μs à moins de 35 μs

En tant queMQM9790-NS2F Solution de commutateur InfiniBand, le déploiement a démontré que les tissus NDR de 400Gb/s peuvent tenir leurs promesses théoriques.La combinaison d'algorithmes de contrôle de la congestion et de routage adaptatif a éliminé les modèles d'effondrement "incast" qui ont affligé le tissu HDR précédent pendant les phases de communication tout-à-tout.

Résumé & Perspectives: Une fondation pour l'IA exascale

Le succès du centre de supercalculationMQM9790-NS2F: Les produits de base sont les suivants:Ils planifient maintenant une deuxième phase qui doublera le nombre de GPU à 4 096 en utilisant des capacités d'IA supplémentaires.MQM9790-NS2F 400Gb/s NDR OSFP à 64 portsLes fonctionnalités de télémétrie et de gestion hors bande des commutateurs ont également permis d'éviter la congestion de manière prédictive,réduire les frais généraux opérationnels pour l'équipe du réseau.

Pour les architectes de réseaux et les responsables informatiques qui évaluent les tissus de nouvelle génération, leNVIDIA Mellanox MQM9790-NS2F est un appareil de téléphonie mobile.Si vous construisez un nouveau pôle de recherche sur l'IA ou que vous améliorez une installation HPC existante, ce commutateur fournit la solution à faible latence,fondation à large bande passante requise pour les charges de travail parallèles modernes.