NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch Solution technique

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch Solution technique

Ce livre blanc technique est conçu pour les architectes réseau, les ingénieurs avant-vente et les responsables des opérations. Il se concentre sur le  Le — un commutateur InfiniBand NDR 400 Gb/s — et fournit des conseils détaillés sur la conception de l'architecture, les technologies clés, le déploiement et la mise à l'échelle, ainsi que les opérations et la surveillance, spécifiquement pour l'optimisation des interconnexions à faible latence des clusters RDMA/HPC/IA.

1. Contexte du projet et analyse des exigences

Les charges de travail modernes d'entraînement IA et de HPC font passer les clusters de milliers à des dizaines de milliers de GPU. Dans de tels environnements, l'interconnexion réseau est devenue un goulot d'étranglement majeur. Les fabrics Ethernet traditionnelles luttent avec la latence des queues et la surcharge du CPU, tandis que les déploiements InfiniBand hérités peuvent manquer de densité de ports et de bande passante suffisantes. Les exigences clés incluent une latence de commutation inférieure à la microseconde, une transmission à pleine vitesse sans perte de paquets, un support RDMA efficace et une évolutivité transparente à des centaines de commutateurs. Le NVIDIA Mellanox MQM9790-NS2F répond directement à ces besoins avec sa capacité NDR 400 Gb/s et ses fonctionnalités avancées de calcul en réseau.

2. Conception globale de l'architecture réseau et système

L'architecture recommandée adopte une topologie Fat-Tree à deux couches (également appelée Clos replié), qui équilibre la bande passante de bissection, le coût et l'évolutivité. Au niveau des feuilles, les serveurs GPU équipés d'adaptateurs ConnectX-7 NDR se connectent aux commutateurs feuilles. Au niveau des épines dorsales, les unités MQM9790-NS2F InfiniBand switch assurent une connectivité non bloquante entre les feuilles. Cette conception garantit une bande passante de bissection complète : tout commutateur feuille peut communiquer avec tout autre commutateur feuille à la vitesse du câble. Pour les clusters à grande échelle, une topologie à trois couches (feuille-épine dorsale-super-épine dorsale) peut être déployée, prenant en charge jusqu'à des dizaines de milliers de nœuds GPU.

  • Commutateurs feuilles : Modèles 64 ports OSFP, chacun se connectant à 32 serveurs (double port) plus des liaisons montantes vers les épines dorsales.
  • Couche d'épine dorsale : Commutateurs MQM9790-NS2F 400Gb/s NDR 64-port OSFP
  • , chaque port agissant comme une liaison montante d'une feuille. Une conception entièrement non bloquante nécessite un nombre de ports d'épine dorsale égal au nombre de commutateurs feuilles.Gestion du sous-réseau :

Un gestionnaire de sous-réseau dédié ou redondant gère le calcul des chemins, le routage adaptatif et le basculement.

3. Rôle et caractéristiques clés du NVIDIA Mellanox MQM9790-NS2F dans la solution Le MQM9790-NS2F

  • offre plusieurs capacités critiques :Performances ligne-rate 400 Gb/s NDR :
  • Chacun des 64 ports OSFP fonctionne en duplex intégral 400 Gb/s, offrant une capacité de commutation agrégée de 51,2 Tb/s.Latence ultra-faible et routage adaptatif :
  • La commutation cut-through maintient la latence port à port en dessous de 130 ns. Le routage adaptatif équilibre dynamiquement le trafic sur plusieurs chemins, évitant les points chauds.Calcul en réseau (SHARPv3) :
  • Prend en charge l'agrégation et la réduction hiérarchiques évolutives, déchargeant les opérations collectives du CPU/GPU et réduisant les mouvements de données jusqu'à 10 fois.Conception native RDMA :
  • Le RDMA accéléré par matériel permet un accès direct à la mémoire GPU, éliminant l'implication du CPU et réduisant considérablement la surcharge de communication.Télémétrie et QoS complètes :

Le contrôle de congestion granulaire, la surveillance des tampons et la classification des flux garantissent des performances déterministes pour les charges de travail mixtes. offre une voie claire pour construire des fabrics à faible latence et à large bande passante pour les clusters RDMA/HPC/IA exigeants. Sa densité de 64 ports 400 Gb/s, sa commutation inférieure à la microseconde et ses capacités de calcul en réseau répondent directement aux défis d'évolutivité et de performance des charges de travail modernes. En adoptant l'architecture décrite ci-dessus — topologie Fat-Tree, commutateurs NDR principaux et fonctionnement natif RDMA — les organisations peuvent obtenir une mise à l'échelle GPU linéaire, réduire les temps d'achèvement des tâches de plus de 30 % et simplifier la gestion de la fabric. Pour une planification détaillée, reportez-vous à la fiche technique du MQM9790-NS2F

, le commutateur prend également en charge les alimentations et les ventilateurs remplaçables à chaud, les ports de gestion redondants et une suite complète de diagnostics, ce qui le rend adapté aux environnements de production 7x24.

4. Recommandations de déploiement et de mise à l'échelle (avec topologie typique)Un cluster typique de 2 048 GPU peut être construit à l'aide de 64 commutateurs feuilles et de 32 commutateurs d'épine dorsale. Chaque feuille se connecte à 32 serveurs GPU (double port) et fournit 32 liaisons montantes vers les épines dorsales. La couche d'épine dorsale se compose d'unités compatibles MQM9790-NS2F

exécutant des optiques NDR ou des câbles DAC. Pour une extension à 8 192 GPU, une couche de super-épine dorsale est ajoutée, interconnectant plusieurs pods.

  • Lors de la mise à l'échelle, tenez compte des éléments suivants :Câblage et optiques : Utilisez des DAC OSFP vers OSFP pour les liaisons intra-rack courtes, et des câbles breakout OSFP vers 4xOSFP ou des modules optiques pour les longues distances. Vérifiez la compatibilité avec les spécifications du MQM9790-NS2F
  • concernant la portée et le budget d'alimentation.Dimensionnement du sous-réseau :
  • Un seul gestionnaire de sous-réseau peut gérer jusqu'à 2 000 nœuds ; au-delà, déployez plusieurs sous-réseaux ou utilisez une conception de gestionnaire de sous-réseau distribué.Redondance :La solution de commutateur InfiniBand MQM9790-NS2F

prend en charge le basculement sans interruption avec une configuration SM appropriée.

5. Opérations, surveillance, dépannage et optimisation

  • Des opérations efficaces nécessitent de la visibilité et de l'automatisation. Les pratiques suivantes sont recommandées :Surveillance :
  • Utilisez le Fabric Manager de NVIDIA et les API de télémétrie pour suivre les erreurs de port, la température, la consommation d'énergie et l'utilisation des liens. Définissez des alertes pour les erreurs CRC ou les erreurs de symbole dépassant les seuils.Dépannage : Le MQM9790-NS2F
  • fournit des compteurs par port, des histogrammes d'occupation des tampons et des journaux de congestion. En cas de dégradation des performances, vérifiez la configuration du routage adaptatif, assurez-vous que tous les liens de la fabric sont symétriques et vérifiez que l'agrégation SHARP est activée pour les collectives pris en charge.Optimisation : et aux guides de compatibilité. Pour discuter d'une conception personnalisée ou obtenir le compromis prix MQM9790-NS2F

par rapport aux performances lors de la planification des ajouts de capacité — souvent, la mise à niveau des épines dorsales offre un meilleur retour sur investissement que l'ajout de plus de feuilles.Pour les organisations qui évaluent le MQM9790-NS2F à vendre

, assurez-vous que votre pile logicielle (par exemple, NCCL, OpenMPI) prend en charge les fonctionnalités NDR telles que SHARPv3 et la réduction matérielle.

6. Résumé et évaluation de la valeurLa solution de commutateur InfiniBand MQM9790-NS2F offre une voie claire pour construire des fabrics à faible latence et à large bande passante pour les clusters RDMA/HPC/IA exigeants. Sa densité de 64 ports 400 Gb/s, sa commutation inférieure à la microseconde et ses capacités de calcul en réseau répondent directement aux défis d'évolutivité et de performance des charges de travail modernes. En adoptant l'architecture décrite ci-dessus — topologie Fat-Tree, commutateurs NDR principaux et fonctionnement natif RDMA — les organisations peuvent obtenir une mise à l'échelle GPU linéaire, réduire les temps d'achèvement des tâches de plus de 30 % et simplifier la gestion de la fabric. Pour une planification détaillée, reportez-vous à la fiche technique officielle du MQM9790-NS2F et aux guides de compatibilité. Pour discuter d'une conception personnalisée ou obtenir le prix du MQM9790-NS2F