Switch InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 en production

April 15, 2026

Dernières nouvelles de l'entreprise Switch InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 en production
Contexte et défi : Le mur de la scalabilité dans les clusters d'entraînement IA

Un institut de recherche IA leader en Asie de l'Est a été confronté à un goulot d'étranglement courant mais critique. Leur cluster de 512 GPU, utilisé pour l'entraînement de grands modèles linguistiques et les simulations de dynamique moléculaire, souffrait d'une grave dégradation des performances à mesure que les tâches augmentaient. La cause profonde était le réseau Ethernet hérité de 100 Gb/s, où la surcharge TCP/IP et la perte de paquets lors d'événements d'incast entraînaient des temps d'inactivité des GPU allant jusqu'à 35 %. L'équipe avait besoin d'un réseau sans perte, à latence ultra-faible, capable de prendre en charge RDMA et de s'étendre à des milliers de nœuds sans compromettre les performances déterministes. Après avoir évalué plusieurs solutions, ils ont sélectionné le commutateur Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 comme cœur de leur nouvelle architecture spine-leaf.

Solution et déploiement : Intégration du 920-9B210-00FN-0D0 dans un réseau NDR

Le déploiement était centré sur le 920-9B210-00FN-0D0 en tant que couche spine, avec 32 commutateurs leaf connectant 512 GPU NVIDIA A100 via des adaptateurs ConnectX-7. Chaque commutateur 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR fournit 400 Gb/s par port, doublant la bande passante des solutions HDR précédentes tout en maintenant une latence de commutation inférieure à la microseconde. L' OPN du commutateur InfiniBand 920-9B210-00FN-0D0 officiel a simplifié l'approvisionnement et assuré la cohérence du firmware sur toutes les unités. Les ingénieurs réseau ont utilisé la fiche technique 920-9B210-00FN-0D0 détaillée et les spécifications 920-9B210-00FN-0D0 pour valider les exigences d'alimentation et thermiques, permettant une intégration transparente dans les racks 19" existants. De manière cruciale, le commutateur est entièrement compatible 920-9B210-00FN-0D0 avec l'infrastructure HDR existante et les points d'extrémité NDR plus récents, permettant une migration progressive.

Résultats de performance et avantages opérationnels
  • Gains d'efficacité RDMA : Avec le NVIDIA Mellanox 920-9B210-00FN-0D0 permettant un contrôle de congestion basé sur le matériel, la latence d'écriture RDMA est passée de 12 µs à 1,2 µs. Le RDMA direct GPU (GDR) est devenu pleinement efficace, éliminant les goulots d'étranglement de la mémoire CPU.
  • Accélération des applications HPC : Un code clé de modélisation météorologique (basé sur MPI) a vu une amélioration des performances de 2,7x grâce au routage adaptatif du commutateur et aux délestages collectifs SHARP v2.
  • Débit d'entraînement IA : Pour une tâche d'entraînement LLM de 175 milliards de paramètres, le nouveau réseau a réduit le temps d'all-reduce de 68 %, améliorant l'utilisation globale des GPU de 62 % à 91 %.
  • Simplicité opérationnelle : La solution OPN du commutateur InfiniBand 920-9B210-00FN-0D0 s'est intégrée à la plateforme UFM de NVIDIA, fournissant une télémétrie en temps réel et des alertes de défaillance prédictives. Les responsables informatiques ont signalé une réduction de 50 % du temps de dépannage lié au réseau.
Informations sur les coûts et la disponibilité

Lors de l'évaluation du projet, l'institut de recherche a comparé le prix du 920-9B210-00FN-0D0 aux solutions Ethernet concurrentes. Malgré un coût initial plus élevé, le coût total de possession (TCO) était favorable à InfiniBand en raison d'une utilisation plus élevée des GPU et d'une puissance par Gb/s plus faible. Les unités sont facilement disponibles en tant que 920-9B210-00FN-0D0 à vendre via les canaux de distribution de NVIDIA, avec des délais de livraison nettement plus courts que ceux des autres commutateurs NDR. Les spécifications 920-9B210-00FN-0D0 détaillées ont également confirmé la prise en charge des alimentations redondantes et des ventilateurs remplaçables à chaud, répondant aux exigences de fiabilité de l'institut pour les opérations de recherche IA 24h/24 et 7j/7.

Spécifications techniques clés en un coup d'œil
Paramètre Détail
Modèle NVIDIA Mellanox 920-9B210-00FN-0D0
Vitesse de port 400 Gb/s NDR (par port)
OPN de base OPN du commutateur InfiniBand 920-9B210-00FN-0D0
Configuration complète 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR
Résumé et perspectives : La norme pour les réseaux IA de nouvelle génération

L'institut de recherche IA a maintenant standardisé sur le 920-9B210-00FN-0D0 pour toutes les futures expansions de clusters, y compris un réseau NDR200 de 2 048 GPU prévu. Ce cas réel démontre que le NVIDIA Mellanox 920-9B210-00FN-0D0 n'est pas seulement un commutateur — c'est un composant fondamental pour obtenir une mise à l'échelle linéaire des performances dans les environnements IA et HPC. Pour les architectes et les responsables informatiques cherchant à éliminer les goulots d'étranglement réseau, la solution OPN du commutateur InfiniBand 920-9B210-00FN-0D0 offre une voie éprouvée et prête pour la production.