Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 en action : Optimisation des interconnexions à faible latence pour les clusters RDMA/HPC/IA
April 14, 2026
À l'ère de la formation des modèles d'IA à grande échelle et de l'HPC exascale, la latence du réseau est devenue le goulot d'étranglement le plus critique limitant l'évolutivité des clusters linéaires.,LeLe système de gestion de l'énergie est basé sur des systèmes de gestion de l'énergie qui sont basés sur des systèmes de gestion de l'énergie.Le commutateur InfiniBand transforme la façon dont les institutions de recherche et les laboratoires d'IA d'entreprise conçoivent leurs tissus hautes performances.Le système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.fournit une latence déterministe et ultra-faible pour les charges de travail à forte intensité RDMA.
Contexte et défi: le mur de communication des clusters d'IA
Un centre de recherche sur l'IA de taille moyenne avait des problèmes de temps d'arrêt du GPU lors d'une formation distribuée sur 64 nœuds.Les activités de communication collective (all-reducerLes architectes de réseaux avaient besoin d'une solution sans perte et à haut débit capable de passer à 200 Gb/s par port tout en maintenant une latence inférieure à une microseconde..Après avoir évalué les options disponibles, l'équipe a sélectionné les920-9B110-00FH-0D0 MQM8790-HS2F 200 Gb/s HDRcomme le bloc de construction de base pour leur nouvelle topologie de la feuille de colonne vertébrale.
Solution et déploiement: mise en œuvre du tissu InfiniBand
Le déploiement était centré surNVIDIA Mellanox 920-9B110-00FH-0D0Chaque nœud de calcul était équipé d'adaptateurs HDR ConnectX-6, se connectant aux commutateurs à feuilles via des câbles passifs en cuivre.Principales étapes de mise en œuvre:
- Alternative RDMA sur Ethernet convergé (RoCE):InfiniBand natif avec contrôle de congestion basé sur le matériel élimine complètement les chutes de paquets.
- Routage adaptatif:Le920-9B110-00FH-0D0 InfiniBand commutateur OPN solutionl'équilibrage dynamique de la charge sur plusieurs chemins, évitant ainsi la formation de points chauds.
- Gestion des tissus:Utiliser le gestionnaire de sous-réseaux (OpenSM) avecLes spécifications 920-9B110-00FH-0D0confirmant la prise en charge de 2 000 nœuds dans un seul tissu.
Avant l'approvisionnement, les ingénieurs ont passé en revue lesLes données de l'établissement doivent être fournies à l'autorité compétente de l'État membre où le véhicule est situé.La mise en œuvre de la technologie de l'éclairage est en cours.Les données de l'établissement doivent être disponibles sur le site Web de l'établissement.L'écosystème de l'HDR comprend tous les grands ensembles de câbles HDR, ce qui simplifie la facture des matériaux.920-9B110-00FH-0D0 prixLes appareils HDR ont été conçus et fabriqués pour les télécommunications, et les appareils HDR ont été mis à la disposition des consommateurs.920-9B110-00FH-0D0 à vendre) par l'intermédiaire des partenaires de NVIDIA.
Résultats et avantages: Gains de performance mesurables
La télémétrie post-déploiement a révélé des améliorations spectaculaires sur trois indicateurs clés:
| Pour la métrique | Avant (100GbE) | Après (920-9B110-00FH-0D0 HDR) | Amélioration |
|---|---|---|---|
| La moyenne de la latence de réduction totale (64 nœuds) | 340 μs | 78 μs | Réduction de 77% |
| Temps d'inactivité du GPU (frais généraux de communication) | 38% | - 11% | Gain absolu de 27% |
| Utilisation efficace de la bande passante du tissu | 62% | 94% | +32% |
Au-delà des chiffres bruts, le920-9B110-00FH-0D0 InfiniBand commutateur OPNa permis à l'équipe de passer de 64 à 256 nœuds sans redessiner le tissu.La latence déterministe fournie par le contrôle de flux basé sur le crédit d'InfiniBand s'est avérée essentielle pour maintenir la cohérence de l'entraînement sur des centaines de GPULes ingénieurs ont également tiré parti de laLe système de contrôle de l'équipement doit être équipé d'un système de contrôle de l'équipement.Le système de notification de congestion basé sur le matériel permet d'identifier et de remédier aux micro-éclats en temps réel.
Résumé & Perspectives: L'avenir des interconnexions d'IA
Le déploiement valide queNVIDIA Mellanox 920-9B110-00FH-0D0En remplaçant les tissus Ethernet à perte par InfiniBand sans perte,Les organisations peuvent récupérer jusqu'à 30% du calcul GPU précédemment gaspillé sur les stands de communicationPour les architectes qui planifient de nouvelles infrastructures d'IA, leLes données de l'établissement doivent être fournies à l'autorité compétente de l'État membre où le véhicule est situé.fournit des conseils détaillés sur les topologies allant des petits clusters DGX aux déploiements à l'échelle des supercalculateurs.
Comme les charges de travail évoluent vers un plus grand parallélisme de modèle et des densités de GPU plus élevées, le920-9B110-00FH-0D0 MQM8790-HS2F 200 Gb/s HDRIl offre une voie de mise à niveau claire vers les futurs tissus 400Gb/s grâce à sa conception rétrocompatible.920-9B110-00FH-0D0 prixcontre les gains d'efficacité opérationnelle ou la vérificationLes données de l'établissement doivent être disponibles sur le site Web de l'établissement.Options de câblage, ce commutateur InfiniBand offre un retour sur investissement mesurable pour les organisations axées sur les données.

