Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 Livre blanc technique: Optimisation des interconnexions à faible latence

April 14, 2026

Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 Livre blanc technique: Optimisation des interconnexions à faible latence

Ce livre blanc technique s'adresse aux architectes réseau, aux ingénieurs avant-vente et aux responsables des opérations, en proposant une solution complète centrée surMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0Commutateur InfiniBand. Nous examinons comment cette plate-forme permet une latence déterministe et ultra-faible pour les charges de travail intensives en RDMA dans les environnements de cluster HPC et IA.

1. Contexte du projet et analyse des exigences

Les cadres de formation modernes en IA (PyTorch DDP, DeepSpeed, Megatron) et les codes de simulation HPC (CFD, modélisation météorologique, dynamique moléculaire) s'appuient fortement sur des primitives de communication collective. Les structures Ethernet traditionnelles introduisent trois problèmes fondamentaux : la perte de paquets due à la congestion incast, la latence variable due à la commutation store-and-forward et la surcharge CPU élevée due au traitement de la pile TCP/IP. Ces problèmes entraînent des temps d'inactivité du GPU de 30 à 50 % dans les formations distribuées à grande échelle, ce qui se traduit directement par un délai de résolution prolongé et une augmentation des coûts opérationnels.

Le920-9B110-00FH-0D0répond à ces défis grâce à la technologie native InfiniBand, offrant un RDMA basé sur le matériel, une commutation directe et un contrôle de flux basé sur le crédit. Les cas d'utilisation cibles incluent les laboratoires de recherche en IA gérant 64 à 1 024 clusters GPU, les centres HPC nécessitant une latence MPI inférieure à la microseconde et les fournisseurs de cloud créant des familles d'instances d'IA sans système d'exploitation.

2. Conception globale de l’architecture du réseau

L'architecture recommandée utilise une topologie Fat Tree (Clos plié) à deux niveaux, qui équilibre la bande passante, le coût et l'évolutivité de la bissection. Les paramètres de conception supposent jusqu'à 512 nœuds de calcul, chacun équipé d'adaptateurs HDR ConnectX-6 à double port.

Étage Appareil Configuration des ports Quantité (512 nœuds)
Feuille 920-9B110-00FH-0D0 MQM8790-HS2F 200 Gb/s HDR 40x HDR vers le bas + 8x HDR vers le haut 16 unités
Colonne vertébrale NVIDIA Mellanox 920-9B110-00FH-0D0 40x HDR (vers le bas uniquement) 8 unités

Cette configuration offre une bande passante complète de 200 Gbit/s par nœud, des performances non bloquantes pour les modèles de communication tout-à-tout et une latence aussi faible que 130 ns par saut (cut-through). LeSolution OPN de commutateur InfiniBand 920-9B110-00FH-0D0prend en charge les SKU standard et personnalisés, permettant des configurations de répartition de port flexibles (par exemple, 4x 50 Gb/s par port HDR).

3. Rôle et principales caractéristiques du 920-9B110-00FH-0D0

Au sein de l'architecture proposée, leNVIDIA Mellanox 920-9B110-00FH-0D0sert d’élément de tissu unifié sur les niveaux des feuilles et de la colonne vertébrale. Les principaux différenciateurs techniques comprennent :

  • RDMA basé sur le matériel :Contourne entièrement le noyau et le processeur, permettant des transferts de mémoire à mémoire au débit de ligne avec une latence <1 µs.
  • Routage adaptatif (AR) :Réachemine dynamiquement les paquets en fonction de la congestion des ports en temps réel, distribuant le trafic sur tous les chemins disponibles sans réorganisation des paquets.
  • Contrôle des embouteillages :Les mécanismes de notification et de limitation au niveau matériel empêchent le blocage en tête de ligne, comme détaillé dans leFiche technique 920-9B110-00FH-0D0.
  • Télémétrie pointue :Les moniteurs matériels intégrés fournissent des compteurs d'occupation de tampon, de latence et d'erreurs par port pour une gestion proactive.

Les ingénieurs évaluant l'approvisionnement doivent examiner l'intégralitéSpécifications du 920-9B110-00FH-0D0, qui confirment la prise en charge jusqu'à 40 ports HDR (200 Gb/s chacun) dans un facteur de forme 1U, avec une consommation électrique inférieure à 300 W typique. LeCompatible 920-9B110-00FH-0D0L'écosystème comprend tous les modules optiques HDR standard (QSFP56) et des câbles en cuivre passifs jusqu'à 5 mètres.

4. Recommandations de déploiement et de mise à l'échelle

Pour le déploiement initial, nous recommandons une approche progressive :

  • Phase 1 (Pilote – 32 nœuds) :Déployez un commutateur à 1 feuille (920-9B110-00FH-0D0) dans une configuration à commutateur unique. Validez les performances RDMA à l’aide des benchmarks ib_write_bw et MPI. Référencez le920-9B110-00FH-0D0 à vendrestatut pour garantir que les délais de livraison correspondent aux jalons du projet.
  • Phase 2 (Production – 128 nœuds) :Implémentez un gros arbre complet avec 4 commutateurs de feuilles + 2 vertèbres. Activez le routage adaptatif et le contrôle de la congestion. Exécutez des tests de résistance étendus avec les tests NCCL (tout réduire, tout rassembler).
  • Phase 3 (évolutivité – plus de 512 nœuds) :Extension à 16 feuilles + 8 commutateurs de colonne vertébrale. Envisagez de passer à une architecture multi-fabric (réseaux de calcul/stockage séparés). Évaluer920-9B110-00FH-0D0 prixpar port par rapport à l'ajout de plus de commutateurs par rapport aux modèles à base plus élevée.

Lors du calcul du coût total de possession, notez que le920-9B110-00FH-0D0élimine le besoin de commutateurs TOR séparés, la complexité de la configuration ECN (contrairement à RoCE) et les licences propriétaires de gestion de la congestion, le tout inclus nativement dans InfiniBand.

5. Opérations, surveillance, dépannage et optimisation

Gestion de production deNVIDIA Mellanox 920-9B110-00FH-0D0Fabrics s'appuie sur deux outils principaux : OpenSM (gestionnaire de sous-réseau) pour la mise en place de base de la structure et NVIDIA UFM (Unified Fabric Manager) pour la télémétrie et l'automatisation à l'échelle de l'entreprise.

  • Bilans de santé quotidiens :Utilisez `ibnetdiscover` pour vérifier la topologie de la structure, `ibstat` pour surveiller l'état du port et `perfquery` pour suivre les compteurs d'erreurs.
  • Optimisation des performances :Définissez le routage adaptatif sur « statique » pour une latence déterministe ou « dynamique » pour un débit maximal. Ajustez le mappage SL2VL pour donner la priorité au contrôle par rapport au trafic de données.
  • Dépannage des problèmes courants :Les erreurs Link CRC indiquent généralement des problèmes d'intégrité du câble/du signal : consultez leFiche technique 920-9B110-00FH-0D0pour les SKU de câbles valides. Les délais d'attente du gestionnaire de sous-réseau nécessitent souvent d'ajuster « max_hop_count » pour les grandes structures.
  • Planification des capacités :Tirez parti des analyses prédictives d'UFM pour prévoir l'utilisation des ports et identifier les points chauds avant qu'ils n'aient un impact sur les travaux. Le920-9B110-00FH-0D0 commutateur InfiniBand OPNpermet à des optiques flexibles et évolutives sur le terrain de s'adapter aux demandes changeantes de bande passante.

Pour les organisations évaluant plusieurs fournisseurs, en comparant920-9B110-00FH-0D0 prixpar rapport aux commutateurs HDR alternatifs devrait prendre en compte la simplicité opérationnelle : la pile mono-fournisseur intégrée verticalement d'InfiniBand réduit le temps de débogage entre les équipes d'environ 40 %.

6. Résumé et évaluation de la valeur

LeMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0fournit une base prête à la production pour les clusters RDMA/HPC/AI nécessitant une interconnexion déterministe à faible latence. Les principales propositions de valeur comprennent :

  • Performance:Jusqu'à 200 Gbit/s par port avec une latence de commutation inférieure à 130 ns, permettant une mise à l'échelle linéaire du GPU jusqu'à des milliers de nœuds.
  • Efficacité opérationnelle :Les déchargements matériels natifs éliminent l’intervention du processeur pour les E/S réseau, libérant ainsi des cœurs pour le calcul.
  • Pérennité :Compatibilité ascendante avec EDR (100 Gb/s) et compatibilité ascendante avec NDR (400 Gb/s) via la traduction de la vitesse du port.
  • Coût total de possession :Lors du calcul920-9B110-00FH-0D0 prixpar rapport aux alternatives Ethernet, incluent des économies grâce à la réduction du temps d'inactivité du GPU (récupération typique de 15 à 25 %) et à l'élimination des licences propriétaires de contrôle de congestion.

Les architectes sont encouragés à télécharger le document completFiche technique 920-9B110-00FH-0D0et faites référence au fonctionnaireSpécifications du 920-9B110-00FH-0D0pour les matrices de câblage et la budgétisation de l'énergie. Pour les déploiements de production, vérifiez920-9B110-00FH-0D0 à vendredisponibilité via le réseau de partenaires NVIDIA et demandez un laboratoire de validation pour des tests de topologie personnalisés.