Solution technique du commutateur InfiniBand Mellanox (NVIDIA) 920-9B110-00FH-0D0|Optimisation de l'interconnexion à faible latence

January 5, 2026

Solution technique du commutateur InfiniBand Mellanox (NVIDIA) 920-9B110-00FH-0D0|Optimisation de l'interconnexion à faible latence

1. Analyse des antécédents et des besoins du projet

Le déploiement et la mise à l'échelle de clusters d'informatique accélérée modernes pour la formation en IA et les charges de travail HPC présentent des défis de réseau uniques.Les réseaux traditionnels basés sur TCP/IP introduisent une latence importante et des frais généraux de processeurLes exigences clés pour une solution d'interconnexion de nouvelle génération sont les suivantes: latence déterministe sous-microseconde pour éviter l'arrêt du GPU,largeur de bande bisectionnelle élevée pour les modèles de communication tous-à-tous, l'informatique en réseau évolutive pour décharger les opérations collectives et une gestion robuste du tissu pour simplifier les opérations.

Le...NVIDIA Mellanox 920-9B110-00FH-0D0est conçu pour répondre à ces exigences exactes, formant la base d'un système performant et efficace920-9B110-00FH-0D0 InfiniBand commutateur OPN solutionCe document décrit un plan technique complet pour son déploiement.

2. Conception globale de l'architecture réseau/système

L'architecture proposée est une topologie d'arbre gras à feuille vertébrale et non bloquante, qui est la norme de facto pour la construction de clusters HPC et d'IA prévisibles et à large bande passante.Cette conception assure un nombre de sauts et une latence constants entre deux nœudsL'architecture est construite sur un écosystème entièrement optimisé pour NVIDIA.

  • Couche de calcul:les systèmes NVIDIA DGX ou HGX, ou des serveurs GPU équivalents équipés de NVIDIA ConnectX-7 NIC.
  • Couche d'interconnexiond'une épaisseur n'excédant pas 50 mmLe système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.des interrupteurs agissant à la fois comme des interrupteurs de feuille (top-of-rack) et comme des interrupteurs de colonne vertébrale.
  • Couche de gestion et d'orchestrationNVIDIA UFM® pour la gestion des tissus, intégré avec des planificateurs de cluster comme Slurm ou Kubernetes via la pile NVIDIA Magnum IO.

Cette architecture de bout en bout assure des performances optimales pour les communications RDMA et GPUDirect, créant un "tissu unifié en tant que ressource de calcul".

3. Rôle du 920-9B110-00FH-0D0 et caractéristiques techniques clés

Au sein de cette architecture, leLe système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.Il s'agit d'une unité fondamentale du plan de données, dont le rôle dépasse le simple transfert de paquets pour devenir un élément de calcul actif.

Les principaux piliers techniques:

  • Ultra-faible latence et large bande passante:Propulsé par le920-9B110-00FH-0D0 MQM8790-HS2F 200 Gb/s HDRASIC, il offre une latence port-à-port de pointe et une bande passante de 200 Gb/s par port, ce qui est essentiel pour le trafic RDMA.
  • L'équipement est équipé d'un système d'exploitation qui permet d'exploiter des systèmes de gestion des données.Le matériel du commutateur accélère les opérations collectives MPI et NCCL (All-Reduce, Broadcast) en effectuant l'agrégation de données dans le réseau.
  • Contrôle avancé de la congestion:Les mécanismes de routage adaptatif et de contrôle de la congestion en temps opportun gèrent dynamiquement les flux de trafic,prévenir les déversements de paquets et assurer une répartition équitable de la bande passante lors de scénarios incast courants dans la formation en IA.
  • Télémétrie et visibilité:La prise en charge intégrée de l'infrastructure de télémétrie de NVIDIA fournit des informations approfondies sur les modèles de trafic, l'occupation des tampons et la santé des liaisons, qui sont essentielles pour le réglage des performances.

Les ingénieurs doivent consulter le fonctionnaireLes données de l'établissement doivent être fournies à l'autorité compétente de l'État membre où le véhicule est situé.pour les détailsLes spécifications 920-9B110-00FH-0D0sur les configurations d'alimentation, de refroidissement et de port.

4Recommandations pour le déploiement et la mise à l'échelle

Le déploiement commence par une analyse minutieuse desLes données de l'établissement doivent être disponibles sur le site Web de l'établissement.Une unité de mise à l'échelle typique est un "pod" construit avec un "fat-tree" non bloquant.

Exemple: 512-GPU Cluster Pod

  • Couche de feuilles:DéployerLe système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.des commutateurs en tant que ToR (Top-of-Rack), chacun reliant jusqu'à 16 serveurs GPU (par exemple, 8x systèmes DGX A100).
  • Niveau de la colonne vertébrale:Une deuxième couche deLe système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.Les commutateurs interconnectent tous les commutateurs à feuilles, fournissant une bande passante bisectionnelle complète.
  • Le câblage:Utiliser des câbles HDR QSFP56 (passifs ou actifs) pour toutes les connexions 200 Gb/s entre les commutateurs et les serveurs.

Évoluer au-delà d'une capsule:Plusieurs capsules peuvent être interconnectées à l'aide de commutateurs spéciaux de la colonne vertébrale ou en étendant la hiérarchie de l'arbre gras, en tirant parti du haut radix de la colonne vertébraleLe système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.. Le920-9B110-00FH-0D0 InfiniBand commutateur OPNfournit une feuille de route claire pour l'interopérabilité des pièces pendant l'expansion.

5. Opérations, surveillance, dépannage et optimisation

La gestion proactive est cruciale pour maintenir les performances optimales du tissu.

Zone opérationnelle Outil ou caractéristique Avantages
Fourniture et surveillance des tissus Gestionnaire de périphériques UFM® et télémétrie Provisionnement sans contact, tableaux de bord de santé en temps réel, et collecte de mesures de performance.
Résolution de problèmes et analyse des causes profondes Analyseur d'événements UFM® et diagnostic des câbles Détection d'anomalies par IA, journaux d'événements détaillés, et tests de câbles à distance.
Optimisation des performances UFM® Performance Advisor et SHARP Analytics Identifie les points de congestion, optimise le routage et surveille l'efficacité de calcul du réseau.

Les mises à jour régulières du firmware et le respect des meilleures pratiques décrites dans la documentation du commutateur sont essentiels.le flux de diagnostic doit commencer par la télémétrie UFM®, vérifier l'intégrité du câble et vérifier les réglages SHARP et de contrôle de la congestion.

6Conclusion et évaluation de la valeur

La mise en œuvre d'une interconnexion de grappes basée sur laLe produit est fabriqué à partir d'un matériau d'une valeur supérieure ou égale à la valeur nominale de l'appareilIl fournit une base de haute performance à l'épreuve du temps pour les charges de travail RDMA, HPC et IA.,permet une croissance évolutive des grappes et simplifie les opérations grâce à une gestion intégrée et à la télémétrie.

Alors que le920-9B110-00FH-0D0 prixLe coût total de possession (TCO) est favorable si l'on considère les réductions spectaculaires du temps de réalisation des travaux, l'amélioration de la productivité des chercheurs,et une mise à l'échelle efficace qui évite les redessins coûteux des tissus. Les organisations qui évaluent les920-9B110-00FH-0D0 à vendreCette solution technique fournit le modèle pour libérer tout le potentiel des infrastructures d'informatique accélérée.