Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Solution technique de commutateur à bande Infini
April 15, 2026
1. Contexte du projet et analyse des exigences
Les clusters d'IA modernes et les environnements de calcul haute performance (HPC) sont confrontés à un défi d'évolutivité commun : à mesure que le nombre de GPU et la densité de calcul augmentent, les réseaux Ethernet traditionnels deviennent le principal goulot d'étranglement en raison de la surcharge TCP/IP, de la perte de paquets et de la latence imprévisible. Pour les charges de travail s'appuyant sur RDMA (Remote Direct Memory Access), même une gigue de l'ordre de la microseconde peut réduire l'utilisation effective des GPU de 30 à 40 %. Le commutateur Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand répond directement à ces défis en fournissant un réseau sans perte et déterministe optimisé pour les opérations collectives, les algorithmes all-reduce et les communications MPI à haute fréquence.
Les exigences clés pour les réseaux IA/HPC de nouvelle génération incluent : une latence de commutation inférieure à la microseconde, la prise en charge des vitesses NDR de 400 Gb/s, le calcul en réseau basé sur le matériel (SHARP v2) et une compatibilité ascendante transparente avec l'infrastructure HDR existante. Le 920-9B210-00FN-0D0 répond à tous ces critères tout en offrant une gestion et une télémétrie de niveau entreprise.
2. Conception globale de l'architecture réseau et système
L'architecture recommandée est centrée sur une topologie fat-tree à deux couches (spine-leaf), qui offre une bande passante de bissection complète et une latence déterministe pour les modèles de communication all-to-all typiques de l'entraînement distribué. La couche spine est composée de commutateurs NVIDIA Mellanox 920-9B210-00FN-0D0, chacun fonctionnant comme un spine de réseau NDR. Les commutateurs leaf (par exemple, série QM9700) se connectent aux nœuds de calcul via des adaptateurs ConnectX-7 ou BlueField-3, tandis que les liaisons montantes vers le spine fonctionnent à des vitesses NDR de 400 Gb/s.
Pour les déploiements à grande échelle dépassant 2 000 GPU, une architecture à trois niveaux (core-agrégation-accès) peut être mise en œuvre, avec les unités 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR servant à la fois de commutateurs core et d'agrégation. Cette conception garantit une mise à l'échelle linéaire des performances et prend en charge l'expansion future à NDR200 (800 Gb/s) sans nécessiter de mise à niveau majeure. L' OPN du commutateur InfiniBand 920-9B210-00FN-0D0 officiel simplifie l'approvisionnement multi-sites et garantit la cohérence du firmware sur l'ensemble du réseau.
3. Rôle et caractéristiques clés du 920-9B210-00FN-0D0 dans la solution
Le 920-9B210-00FN-0D0 sert d'élément spine/core haute performance au sein du réseau InfiniBand. Ses capacités clés incluent :
- Densité de ports NDR 400 Gb/s : Chaque commutateur 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR fournit jusqu'à 32 ports 400 Gb/s, prenant en charge les émetteurs-récepteurs en cuivre et optiques pour un câblage flexible jusqu'à 500 mètres (monomode).
- Calcul en réseau (SHARP v2) : Les opérations all-reduce accélérées par le matériel réduisent le temps de communication collective jusqu'à 8 fois pour les charges de travail d'entraînement IA, améliorant directement l'utilisation des GPU.
- Routage adaptatif et contrôle de la congestion : La sélection dynamique des chemins évite la formation de points chauds et garantit une latence déterministe sous des modèles de trafic incast.
- Alternative à RDMA over Converged Ethernet (RoCE) : Contrairement à RoCE, InfiniBand natif sur le 920-9B210-00FN-0D0 ne nécessite aucune configuration PFC et offre des performances constantes, même à 95 % d'utilisation du lien.
Les ingénieurs peuvent consulter la fiche technique du 920-9B210-00FN-0D0 et les spécifications du 920-9B210-00FN-0D0 pour des informations détaillées sur la consommation d'énergie (typiquement 350 W), les thermiques et la latence (délai de commutation inférieur à 200 ns). Le commutateur est entièrement compatible avec le 920-9B210-00FN-0D0 avec tous les principaux points d'extrémité NVIDIA InfiniBand et les optiques NDR tierces.
4. Recommandations de déploiement et de mise à l'échelle (exemples de topologie)
Petit cluster (128-256 GPU) : Spine unique de 2 commutateurs 920-9B210-00FN-0D0, chacun se connectant à 8-16 commutateurs leaf. Fournit une bande passante de bissection complète et une redondance. Cluster moyen (512-1024 GPU) : Quatre commutateurs spine dans une configuration non bloquante, chaque commutateur leaf ayant 4 liaisons montantes (2 par spine). Cette topologie garantit qu'aucun lien unique ne dépasse 80 % d'utilisation en cas de trafic de pointe. Grand cluster (2048+ GPU) : Couche core de 8 commutateurs NVIDIA Mellanox 920-9B210-00FN-0D0, couche d'agrégation utilisant le même modèle, et couche d'accès avec la série QM9700. Toutes les interconnexions en NDR 400 Gb/s, avec une préparation optionnelle pour NDR200.
Pour les organisations qui évaluent les coûts, le prix du 920-9B210-00FN-0D0 est positionné de manière compétitive par rapport aux commutateurs Ethernet haut de gamme en tenant compte du coût total de possession (TCO). Les unités sont disponibles en tant que 920-9B210-00FN-0D0 à vendre via le réseau de distribution agréé de NVIDIA, avec des délais de livraison typiques de 4 à 6 semaines.
5. Opérations, surveillance, dépannage et optimisation
La gestion est centralisée via NVIDIA Unified Fabric Manager (UFM), qui fournit une télémétrie en temps réel, une analyse prédictive des défaillances et une remédiation automatisée. Les pratiques opérationnelles clés pour la solution OPN complète de commutateur InfiniBand 920-9B210-00FN-0D0 incluent :
- Bases de référence de performance : Utilisez les cartes thermiques de latence d'UFM pour identifier les micro-rafales. Les spécifications du 920-9B210-00FN-0D0 confirment les compteurs matériels pour les marques ECN et l'occupation des tampons.
- Gestion du firmware : Maintenez toutes les unités sur la même branche de firmware NDR. La fiche technique du 920-9B210-00FN-0D0 inclut une matrice de compatibilité pour ConnectX-7 et BlueField-3.
- Scénarios de défaillance : Les alimentations et les modules de ventilateur redondants permettent une redondance N+1. UFM peut automatiquement rediriger le trafic autour des liens ou des commutateurs défaillants.
- Conseils d'optimisation : Activez le routage adaptatif sur tous les ports spine ; désactivez les trames de pause globales ; configurez SHARP pour les charges de travail intensives en all-reduce ; utilisez les identifiants OPN du commutateur InfiniBand 920-9B210-00FN-0D0 pour mapper les ports physiques à des rôles logiques.
6. Résumé et évaluation de la valeur
Le Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 représente un bloc de construction fondamental pour les réseaux IA et HPC haute performance. En fournissant une bande passante NDR de 400 Gb/s, une latence de commutation inférieure à la microseconde et le calcul en réseau SHARP v2, il élimine les goulots d'étranglement réseau qui limitent généralement la mise à l'échelle des GPU. Le 920-9B210-00FN-0D0 n'est pas simplement un commutateur, c'est une solution OPN complète de commutateur InfiniBand 920-9B210-00FN-0D0 qui inclut une compatibilité totale avec les infrastructures HDR existantes, une gestion de niveau entreprise via UFM et un chemin de migration clair vers les futures vitesses NDR200. Pour les architectes réseau et les responsables informatiques cherchant à optimiser les performances d'interconnexion des clusters RDMA/HPC/IA, ce commutateur offre un retour sur investissement mesurable grâce à une utilisation accrue des GPU, des temps d'achèvement des tâches réduits et des frais d'exploitation moindres.
Référence des spécifications clés
| Paramètre | Valeur |
|---|---|
| Modèle | NVIDIA Mellanox 920-9B210-00FN-0D0 |
| Débit | NDR 400 Gb/s (par port) |
| OPN de base | OPN du commutateur InfiniBand 920-9B210-00FN-0D0 |
| Configuration complète | 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR |
| Latence de commutation | <200ns |
| Consommation électrique | ~350W (typique) |

