NVIDIA Mellanox MQM9790-NS2F Commutateur InfiniBand en action: optimisation de l'interconnexion à faible latence

April 13, 2026

Le commutateur InfiniBand NVIDIA Mellanox MQM9790-NS2F en action : optimisation de l'interconnexion à faible latence pour les clusters RDMA/HPC/IA

Dans l'entraînement IA, les simulations de calcul haute performance (HPC) et le stockage distribué à grande échelle, la latence et la bande passante du réseau dictent souvent la limite supérieure de l'efficacité du cluster. Pour aider les organisations à surmonter ce goulot d'étranglement, le commutateur InfiniBand MQM9790-NS2F de NVIDIA Mellanox devient un composant d'interconnexion central dans de nombreux déploiements IA et HPC. Cet article présente une mise à niveau réelle d'un cluster d'entraînement IA à grande échelle, illustrant comment ce commutateur offre des réseaux RDMA à faible latence et des gains de performance mesurables.MQM9790-NS2FInfiniBand de NVIDIA Mellanox est en train de devenir un composant d'interconnexion central dans de nombreux déploiements IA et HPC. Cet article présente une mise à niveau réelle d'un cluster d'entraînement IA à grande échelle, illustrant comment ce commutateur offre des réseaux RDMA à faible latence et des gains de performance mesurables.

Contexte et défi : pression réseau de mille à dix mille GPU

Une institution de recherche de premier plan exploitait auparavant un cluster de mille GPU pour l'entraînement de modèles de langage volumineux et la simulation météorologique. Alors que les paramètres des modèles passaient de dizaines de milliards à des centaines de milliards, le réseau InfiniBand HDR existant de 200 Gbit/s a commencé à connaître des congestions et une augmentation des frais de communication. Les opérations All-Reduce inter-nœuds prenaient beaucoup plus de temps, et les GPU restaient souvent inactifs en attendant les transferts réseau. Les architectes avaient un besoin urgent d'une solution offrant une densité de ports plus élevée, un équilibrage de charge plus granulaire et une compatibilité totale avec l'infrastructure RDMA existante.

Après une évaluation approfondie, l'équipe a sélectionné une infrastructure InfiniBand de classe NDR basée sur le MQM9790-NS2F de NVIDIA Mellanox. Avec 64 ports OSFP, chacun fonctionnant à un débit de ligne de 400 Gbit/s, le commutateur correspond parfaitement aux exigences de débit des serveurs GPU de nouvelle génération.NVIDIA Mellanox MQM9790-NS2FSolution et déploiement : infrastructure NDR + réseau RDMA sans perte

Dans la nouvelle conception, chaque serveur GPU est équipé de cartes ConnectX-7 à double port, connectées à deux commutateurs leaf. Au cœur, les commutateurs MQM9790-NS2F 400 Gbit/s NDR 64 ports OSFP forment une topologie Fat-Tree à deux couches utilisant une architecture Clos non bloquante. Le routage adaptatif et le contrôle de congestion sont activés, exploitant le RDMA InfiniBand natif pour transférer les données directement de la mémoire GPU vers la mémoire GPU distante, en contournant la surcharge du CPU et de la pile logicielle.

MQM9790-NS2F 400Gb/s NDR 64-port OSFPUtilisation des ports et compatibilité : Les cartes HDR existantes peuvent fonctionner à vitesse réduite, protégeant les investissements antérieurs. La liste des compatibilités MQM9790-NS2F couvre les serveurs GPU et les systèmes de stockage grand public, ne nécessitant aucune modification de pilote lors du déploiement.

MQM9790-NS2F compatibleOpérations intelligentes : La télémétrie intégrée surveille les erreurs de liaison et la congestion en temps réel, aidant les équipes à isoler rapidement les problèmes de modules optiques ou de câbles et réduisant considérablement le temps moyen de réparation.Résultats et avantages : temps d'itération d'entraînement réduit de 38 %, surcharge réseau tombant à 8 %
Après la mise à niveau, l'institution a effectué des tests comparatifs sur des charges de travail de production. Dans une tâche de pré-entraînement de style GPT avec 100 milliards de paramètres, le cluster basé sur le commutateur InfiniBand MQM9790-NS2F a réduit le temps d'itération de 2,8 secondes à 1,73 seconde, soit une amélioration de 38 %. La part de la communication réseau dans la latence totale est passée de 22 % à 8 %, ce qui signifie que les GPU ont passé beaucoup plus de temps sur des calculs utiles. Grâce au calcul en réseau SHARPv3 à l'intérieur du commutateur NDR, l'utilisation de la bande passante All-Reduce a presque doublé.MQM9790-NS2F InfiniBand switch

Du côté du stockage, le NVMe sur InfiniBand à faible latence a multiplié par 2,3 la bande passante de lecture/écriture agrégée du système de fichiers parallèle. Les temps de sauvegarde et de restauration des points de contrôle sont passés de 12 minutes à moins de 5 minutes. Ces chiffres sont enregistrés dans des rapports de test internes et correspondent à la base de référence des spécifications MQM9790-NS2F.

MQM9790-NS2F specificationsRésumé et perspectives : l'interconnexion NDR comme choix par défaut pour l'infrastructure IA de nouvelle générationCe cas démontre clairement que pour les clusters RDMA/HPC/IA à grande échelle, l'adoption de la solution de commutateur InfiniBand MQM9790-NS2F élimine efficacement la congestion du réseau, augmente l'utilisation des GPU et simplifie les opérations. Pour les architectes planifiant des clusters de dix mille GPU, la fiche technique MQM9790-NS2F est une référence essentielle pour évaluer la puissance, la densité des ports et les ensembles de fonctionnalités. Le modèle est maintenant en production de masse ; pour les demandes de prix MQM9790-NS2F ou d'achat de MQM9790-NS2F, veuillez contacter les partenaires NVIDIA autorisés. Alors que les futures charges de travail exigeront des débits de 800 Gbit/s et plus, la plateforme de commutation NDR continuera de jouer un rôle central dans la libération du potentiel de calcul.

MQM9790-NS2F InfiniBand switch solutionMQM9790-NS2F datasheetMQM9790-NS2F price

NVIDIA Mellanox MQM9790-NS2F Commutateur InfiniBand en action: optimisation de l'interconnexion à faible latence