Switch InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 en production
April 15, 2026
Un institut de recherche IA leader en Asie de l'Est a été confronté à un goulot d'étranglement courant mais critique. Leur cluster de 512 GPU, utilisé pour l'entraînement de grands modèles linguistiques et les simulations de dynamique moléculaire, souffrait d'une grave dégradation des performances à mesure que les tâches augmentaient. La cause profonde était le réseau Ethernet hérité de 100 Gb/s, où la surcharge TCP/IP et la perte de paquets lors d'événements d'incast entraînaient des temps d'inactivité des GPU allant jusqu'à 35 %. L'équipe avait besoin d'un réseau sans perte, à latence ultra-faible, capable de prendre en charge RDMA et de s'étendre à des milliers de nœuds sans compromettre les performances déterministes. Après avoir évalué plusieurs solutions, ils ont sélectionné le commutateur Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 comme cœur de leur nouvelle architecture spine-leaf.
Le déploiement était centré sur le 920-9B210-00FN-0D0 en tant que couche spine, avec 32 commutateurs leaf connectant 512 GPU NVIDIA A100 via des adaptateurs ConnectX-7. Chaque commutateur 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR fournit 400 Gb/s par port, doublant la bande passante des solutions HDR précédentes tout en maintenant une latence de commutation inférieure à la microseconde. L' OPN du commutateur InfiniBand 920-9B210-00FN-0D0 officiel a simplifié l'approvisionnement et assuré la cohérence du firmware sur toutes les unités. Les ingénieurs réseau ont utilisé la fiche technique 920-9B210-00FN-0D0 détaillée et les spécifications 920-9B210-00FN-0D0 pour valider les exigences d'alimentation et thermiques, permettant une intégration transparente dans les racks 19" existants. De manière cruciale, le commutateur est entièrement compatible 920-9B210-00FN-0D0 avec l'infrastructure HDR existante et les points d'extrémité NDR plus récents, permettant une migration progressive.
- Gains d'efficacité RDMA : Avec le NVIDIA Mellanox 920-9B210-00FN-0D0 permettant un contrôle de congestion basé sur le matériel, la latence d'écriture RDMA est passée de 12 µs à 1,2 µs. Le RDMA direct GPU (GDR) est devenu pleinement efficace, éliminant les goulots d'étranglement de la mémoire CPU.
- Accélération des applications HPC : Un code clé de modélisation météorologique (basé sur MPI) a vu une amélioration des performances de 2,7x grâce au routage adaptatif du commutateur et aux délestages collectifs SHARP v2.
- Débit d'entraînement IA : Pour une tâche d'entraînement LLM de 175 milliards de paramètres, le nouveau réseau a réduit le temps d'all-reduce de 68 %, améliorant l'utilisation globale des GPU de 62 % à 91 %.
- Simplicité opérationnelle : La solution OPN du commutateur InfiniBand 920-9B210-00FN-0D0 s'est intégrée à la plateforme UFM de NVIDIA, fournissant une télémétrie en temps réel et des alertes de défaillance prédictives. Les responsables informatiques ont signalé une réduction de 50 % du temps de dépannage lié au réseau.
Lors de l'évaluation du projet, l'institut de recherche a comparé le prix du 920-9B210-00FN-0D0 aux solutions Ethernet concurrentes. Malgré un coût initial plus élevé, le coût total de possession (TCO) était favorable à InfiniBand en raison d'une utilisation plus élevée des GPU et d'une puissance par Gb/s plus faible. Les unités sont facilement disponibles en tant que 920-9B210-00FN-0D0 à vendre via les canaux de distribution de NVIDIA, avec des délais de livraison nettement plus courts que ceux des autres commutateurs NDR. Les spécifications 920-9B210-00FN-0D0 détaillées ont également confirmé la prise en charge des alimentations redondantes et des ventilateurs remplaçables à chaud, répondant aux exigences de fiabilité de l'institut pour les opérations de recherche IA 24h/24 et 7j/7.
| Paramètre | Détail |
|---|---|
| Modèle | NVIDIA Mellanox 920-9B210-00FN-0D0 |
| Vitesse de port | 400 Gb/s NDR (par port) |
| OPN de base | OPN du commutateur InfiniBand 920-9B210-00FN-0D0 |
| Configuration complète | 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR |
L'institut de recherche IA a maintenant standardisé sur le 920-9B210-00FN-0D0 pour toutes les futures expansions de clusters, y compris un réseau NDR200 de 2 048 GPU prévu. Ce cas réel démontre que le NVIDIA Mellanox 920-9B210-00FN-0D0 n'est pas seulement un commutateur — c'est un composant fondamental pour obtenir une mise à l'échelle linéaire des performances dans les environnements IA et HPC. Pour les architectes et les responsables informatiques cherchant à éliminer les goulots d'étranglement réseau, la solution OPN du commutateur InfiniBand 920-9B210-00FN-0D0 offre une voie éprouvée et prête pour la production.

