NVIDIA Mellanox MQM8790-HS2F Solution technique: Optimisation des interconnexions à faible latence pour les grappes RDMA/HPC/IA
April 10, 2026
Cette solution technique est conçue pour les architectes de réseau, les ingénieurs de prévente et les responsables des opérations.et d'exploiter des tissus InfiniBand haute performance centrés autour de laNVIDIA Mellanox MQM8790-HS2F est une marque américaine de télévision., ciblant les grappes de formation en HPC et IA à forte intensité de RDMA.
La formation à l'IA moderne et les grappes informatiques scientifiques sont de plus en plus confrontées à l'interconnexion réseau comme le principal goulot d'étranglement de performance.latence de la queue, et capacités de déchargement du processeur, ne répondant pas aux exigences des modèles de communication d'entraînement distribués tels que All-Reduce et All-to-All. Les principales exigences comprennent:latence de bout en bout de sous-microseconde,transport sans perte et sans goutte,Prise en charge du GPU Direct RDMA, et la capacité deéchelle linéaire à des milliers de nœudsUne architecture de commutation InfiniBand dédiée est nécessaire pour résoudre fondamentalement ces défis d'efficacité de l'interconnexion.
Cette solution recommande une topologie Fat-Tree à deux couches pour atteindre une bande passante non bloquante et bisectionnelle complète.MQM8790-HS2F Commutateur InfiniBand, qui fournit 40 ports de 200Gb/s HDR QSFP56.
- Couche de feuilles: chaque MQM8790-HS2F relie 20 nœuds de calcul (double-uplink) et 8 uplinks à la couche vertébrale.
- Couche de la colonne vertébrale: 8 interrupteurs MQM8790-HS2F forment le plan de la colonne vertébrale, avec une connectivité pleine maille entre chaque feuille et chaque interrupteur de la colonne vertébrale.
- Réseau de stockage et de gestion: Un sous-réseau InfiniBand séparé ou Ethernet hors bande pour éviter d'interférer avec le trafic informatique.
Cette architecture garantit une bande passante de 200 Gb/s entre deux nœuds, avec plusieurs chemins redondants garantissant qu'un seul point de défaillance n'affecte pas la connectivité mondiale.La densité élevée des ports deMQM8790-HS2F 200Gb/s HDR à 40 ports QSFP56réduit le nombre d'interrupteurs requis de 50% par rapport aux solutions EDR de génération précédente, tout en réduisant la complexité du tissu.
LeNVIDIA Mellanox MQM8790-HS2F est une marque américaine de télévision.sert d'unité de commutation de base dans cette solution, remplissant les rôles critiques suivants:
- Moteur de commutation sans perte: Le contrôle de débit de la couche de liaison InfiniBand élimine la perte de paquets, assurant ainsi l'efficacité du transport RDMA.
- Routage adaptatif: équilibre dynamiquement le trafic sur plusieurs voies, évitant les points chauds de congestion et améliorant le débit effectif.
- SHARPv3 en réseau: décharge les opérations de réduction sur l'interrupteur, accélérant l'All-Reduce de 2°3*.
- Haute densité et faible puissance: 40 ports à 200 Gb/s avec une consommation d'énergie par port de pointe, réduisant le TCO.
Selon leFiche de données MQM8790-HS2FetLes spécifications MQM8790-HS2F, le commutateur offre une capacité de commutation globale de 16 Tb/s, une latence de port à port inférieure à 130 ns et prend en charge des alimentations et des ventilateurs à commutation à chaud pour des environnements de production 24/7.l'appareil est entièrement compatible avec les adaptateurs HDR NVIDIA ConnectX-6/7 et un large éventail de câbles optiques / cuivre HDR, validant l' échéance de laMQM8790-HS2F est compatibleécosystème.
Suivez ces étapes pour déployer la solution:
- Gestion des sous-réseaux: déployer des gestionnaires de sous-réseaux en veille active (SM); la plateforme NVIDIA UFM est recommandée pour la gestion centralisée et la télémétrie.
- Partitions et niveaux de service: Utiliser des clés de partition (P_Key) pour isoler les locataires ou les charges de travail; configurer les mappages SL2VL pour hiérarchiser le trafic de formation de l'IA.
- Sélection du câble: Utiliser des câbles de cuivre passifs pour les courtes distances (≤ 3 m) et des câbles optiques actifs ou des émetteurs-récepteurs pour les longues distances afin de maintenir l'intégrité du signal.
Pour les clusters plus grands de plus de 2 000 nœuds, une topologie à trois niveaux Fat-Tree ou Dragonfly+ peut être adoptée, la couche de base continuant d'utiliser leLes produits de la catégorie 1 doivent être présentés dans la catégorie 1 de la présente annexe.Lorsque vous achetez des unités supplémentaires, vérifiezLe prix MQM8790-HS2Fet la disponibilité par l'intermédiaire de distributeurs agréés; vérifiéMQM8790-HS2F à vendreLes listes incluent généralement le dernier firmware et la garantie.MQM8790-HS2F Solution de commutateur InfiniBandIl s'agit d'un programme de recherche qui s'étend de la recherche départementale sur l'IA aux centres de supercalculation à exascale.
Le fonctionnement efficace du tissu InfiniBand nécessite une surveillance proactive et un dépannage discipliné:
- Surveillance: Utilisation
- Je ne sais pas.pour la vérification de la topologie,les produits de perçagepour les comptoirs portuaires et la télémétrie UFM pour la visibilité en temps réel de la congestion. - Questions communes et résolution:
- Faire battre les maillons: Vérifier les sièges des câbles et effectuer des tests de diagnostic des câbles; remplacer les optiques défectueuses.
- Transition par défaut du gestionnaire de sous-réseau: S'assurer que les priorités du SM sont correctement configurées et que le SM secondaire dispose d'une base de données valide.
- Routage adaptatif inégal: ajuster les paramètres de l'algorithme de routage (par exemple,
le moteur de routage est un arbre) et permettent la répartition de la charge.
- Conseils d'optimisation: Activer l'agrégation SHARP pour les opérations collectives; régler le MTU à 4096 octets pour les transferts de messages volumineux; utiliser la qualité de service pour séparer le trafic de contrôle, de données et de gestion.
Les mises à jour régulières du micrologiciel via le portail de support NVIDIA assurent des correctifs de sécurité et des améliorations de performance.Fiche de données MQM8790-HS2Fpour les valeurs de référence détaillées de performance et les contre-valeurs attendues dans des conditions saines.
LeNVIDIA Mellanox MQM8790-HS2F est une marque américaine de télévision.fournit une plateforme de commutation InfiniBand à l'épreuve du temps qui répond aux principaux défis de l'interconnexion de clusters RDMA/HPC/IA: latence, perte, surcoût du processeur et évolutivité.En mettant en œuvre l'architecture à deux couches Fat-Tree décrite ci-dessus, les organisations peuvent atteindre une mise à l'échelle linéaire des performances, des délais de réalisation prévisibles des tâches et une réduction significative du TCO par rapport aux solutions Ethernet traditionnelles.Le commutateur combine une vitesse HDR de 200 Gb/s, la densité de 40 ports et les capacités de calcul en réseau en font un choix idéal pour les déploiements en vert ou les mises à niveau progressives des tissus EDR/HDR.Pour les équipes d'architecture évaluant les grappes de nouvelle génération, leMQM8790-HS2F Solution de commutateur InfiniBandoffre une conception de référence éprouvée et prête à la production.

