Switch InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 en production
June 1, 2026
Les entreprises et les instituts de recherche qui mettent à l'échelle la formation en IA et les simulations HPC sont souvent confrontés à un goulot d'étranglement commun: la latence et la congestion induites par le réseau qui gaspillent les cycles de calcul du GPU.Cette étude de cas de déploiement examine comment un laboratoire de recherche sur l'IA de taille moyenne a transformé ses performances de cluster en utilisant leLe produit est fabriqué à partir d'un matériau d'une valeur supérieure ou égale à la valeur nominale de l'appareilCommutateur InfiniBand, réalisant un tissu déterministe à faible latence pour des charges de travail parallèles exigeantes.
Contexte et défi: Quand Ethernet devient le goulot d'étranglement
Le tissu Ethernet de 100 Gb existant du laboratoire a constamment présenté des pics de latence de queue pendant les opérations de réduction totale, entraînant des temps d'inactivité du GPU allant jusqu'à 25% dans les travaux de formation à grande échelle.Leurs anciens commutateurs manquaient de contrôle de congestion RDMA et de capacités informatiques en réseau.Les architectes avaient besoin d'une solution qui pourrait fournir une latence inférieure à une microseconde, un transport sans perte et une évolutivité transparente pour un backbone NDR à 400 Gb/s en expansion.l'équipe a sélectionné leLes produits de la catégorie 1 peuvent être utilisés pour les produits de la catégorie 1 ou 2.comme le bloc de base de leur nouveau tissu InfiniBand.
Solution et déploiement: Construire un tissu d'IA à faible latence
Le déploiement s'est centré autour de laLe système de détection de la pollution par le gaz est utilisé pour la détection de la pollution par le gaz.Les principales décisions de déploiement comprennent:
- Soutenir pleinement le RDMA:Éliminer les frais généraux de contournement du noyau en utilisant la couche de transport propriétaire de NVIDIA.
- Routage adaptatif:Équilibre dynamique du trafic sur plusieurs chemins pour éviter les points chauds.
- Aggrégation SHARPv3 dans le réseau:Déchargement des opérations collectives des processeurs hôtes sur le plan de données du commutateur.
Les ingénieurs ont fait référence à laLe nombre de points de contrôle doit être le même que le nombre de points de contrôle.etLes spécifications 920-9B210-00FN-0D0La mise à jour de l'appareil a été réalisée pour valider la compatibilité avec les adaptateurs ConnectX-7 existants.920-9B210-00FN-0D0 est compatibleL'écosystème a permis un remplacement instantané des interrupteurs de la colonne vertébrale précédente sans changement de câblage.920-9B210-00FN-0D0 InfiniBand commutateur OPN(numéro de pièce de commande) des processus simplifiés d'approvisionnement et de RMA.
Résultats et avantages: Gains mesurables pour le calcul à haute performance et l'IA
Après avoir émigré dans leNVIDIA Mellanox 920-9B210-00FN-0D0- à base de tissu, le laboratoire a enregistré les améliorations suivantes sur une période d'évaluation de 30 jours:
| Pour la métrique | Avant (100GbE) | Après (920-9B210-00FN-0D0) |
|---|---|---|
| Réduction de la latence | 120,4 μs | 20,8 μs |
| Temps d'inactivité du GPU (entraînement) | 24% | 3% |
| Largeur de bande effective / port | 67 Gb/s | 392 Gb/s |
| Temps d'achèvement du travail (modèle similaire à GPT) | Législation de base | 42% plus rapide |
Pour les gestionnaires informatiques qui évaluent le coût total de possession, le920-9B210-00FN-0D0 prixLa réduction de 40% de la puissance au ralenti du cluster et un débit de travail plus rapide ont été compensés par la réduction de la production de l'énergie au ralenti.920-9B210-00FN-0D0 à vendreLe réseau de distribution HPC via les distributeurs autorisés a également fourni un support de cycle de vie de 5 ans ¥ essentiel pour la planification à long terme des infrastructures HPC.
Résumé et perspectives: un plan pour les grappes d'IA de nouvelle génération
Le laboratoire de recherche a désormais normalisé le920-9B210-00FN-0D0 InfiniBand commutateur OPN solutionPour l'avenir, l'équipe prévoit de passer de 32 à 256 ports NDR en utilisant la même plateforme de commutation, en tirant parti de son architecture non-blocage et de contrôle de la congestion.Pour les architectes qui conçoivent des tissus RDMA à faible latence, leNVIDIA Mellanox 920-9B210-00FN-0D0fournit une base éprouvée, prête à la production, qui élimine l'imprévisibilité du réseau, des petits clusters de prototypage d'IA aux déploiements HPC exascale.

