NVIDIA Mellanox MCX653106A-HDAT Livre blanc technique sur l'adaptateur serveur
April 30, 2026
Ce livre blanc technique s'adresse aux architectes réseau, aux ingénieurs avant-vente et aux responsables des opérations. Il fournit une référence complète pour la conception et le déploiement de réseaux de centres de données haute performance et à faible latence utilisant la carte réseau serveur NVIDIA Mellanox MCX653106A-HDAT, en mettant l'accent sur le transport RDMA/RoCE et les gains mesurables de débit serveur.
Les charges de travail modernes des centres de données—y compris les fabrics de stockage NVMe-oF, l'entraînement distribué d'IA, le trading à haute fréquence et l'analyse en temps réel—imposent des exigences extrêmes à l'infrastructure réseau. Le traitement traditionnel de la pile TCP/IP introduit trois goulots d'étranglement fondamentaux : une surcharge CPU élevée (dépassant souvent 50 % des cycles de cœur), une latence variable due aux limitations de contournement du noyau et une réduction du débit effectif due à la surcharge de traitement du protocole. Les organisations ont besoin d'une solution qui offre une bande passante à débit ligne avec une latence inférieure à la microseconde tout en libérant les ressources CPU pour la logique applicative. Les exigences clés comprennent la décharge matérielle RDMA, le transport RoCE sans perte, l'intégration transparente avec les fabrics Ethernet existantes et des outils opérationnels complets pour la surveillance et le dépannage.
L'architecture proposée adopte une topologie Clos à deux niveaux (spine-leaf) optimisée pour le transport RoCE. Les commutateurs leaf fournissent la connectivité serveur avec DCB (Priority Flow Control, Enhanced Transmission Selection) configuré pour garantir un comportement sans perte pour le trafic RDMA. Les commutateurs spine permettent une communication non bloquante de type any-to-any à travers la fabric. Chaque nœud de calcul et de stockage intègre la carte réseau Ethernet carte réseau Ethernet MCX653106A-HDAT, qui se connecte aux commutateurs leaf via deux ports 100GbE configurés en liaison active-active. L'architecture sépare le trafic RDMA (file d'attente de priorité dédiée avec PFC activé) du trafic TCP/IP régulier (file d'attente best-effort), garantissant une faible latence déterministe pour les flux critiques. La segmentation VLAN isole les domaines RDMA tandis que le routage gère la communication inter-sous-réseaux si nécessaire.
La carte réseau serveur MCX653106A-HDAT ConnectX adapter sert de fondation à cette solution. Basée sur l'architecture ConnectX-6 avec une interface hôte PCIe 4.0 x16, elle offre un débit de 100GbE à double port (ou 200GbE à port unique) avec une latence inférieure à 600 ns sous des charges de travail RDMA. Les caractéristiques clés exploitées dans cette conception comprennent :
- Décharge matérielle RDMA et RoCE : Décharge complète des verbes RDMA, éliminant l'implication du CPU hôte pour le mouvement des données. Prend en charge RoCE v1 et v2.
- Accélérateur NVMe-oF : Logique matérielle qui accélère les commandes NVMe, réduisant la latence d'accès au stockage de plus de 80 % par rapport aux cibles logicielles.
- Chemin de données programmable (ASAP²) : Permet un traitement flexible des paquets et la décharge des réseaux overlay (VXLAN, GENEVE).
- Multi-Host et GPU Direct RDMA : Communication peer-to-peer directe entre les GPU à travers les nœuds sans intervention du CPU—critique pour les clusters d'IA.
- Télémétrie et contrôle de la congestion : Surveillance des flux basée sur le matériel, marquage ECN et limitation dynamique du débit.
Les ingénieurs qui consultent la fiche technique MCX653106A-HDAT noteront la prise en charge des formats standard et OCP 3.0, une couverture complète des systèmes d'exploitation (distributions Linux avec MLNX_OFED, Windows, ESXi) et une large compatibilité serveur. Les spécifications MCX653106A-HDAT confirment également une consommation d'énergie maximale de 75W et des températures de fonctionnement de 0°C à 55°C, adaptées aux déploiements haute densité.
Le déploiement suit une approche progressive. Une topologie pilote typique à deux racks est illustrée ci-dessous :
| Composant | Configuration | Quantité |
|---|---|---|
| Nœuds de calcul/stockage | Intel/AMD double socket, 256 Go+ RAM, disques NVMe | 16 |
| Carte réseau par nœud | MCX653106A-HDAT(double port 100GbE) | 16 |
| Commutateurs Leaf | Mellanox SN3700 (32x 100GbE, DCB activé) | 2 |
| Commutateurs Spine | Mellanox SN3700 (liaisons montantes 100GbE) | 1 (mise à l'échelle à 2 pour la redondance) |
Étapes de déploiement :
- Étape 1 – Validation : Confirmer les serveurs compatibles MCX653106A-HDAT, le firmware du commutateur et les versions du noyau de l'OS. Utiliser la matrice de compatibilité de la fiche technique MCX653106A-HDAT.
- Étape 2 – Installation du pilote : Déployer le package de pilotes MLNX_OFED (version minimale 5.8) sur tous les nœuds. Activer les modules du noyau RDMA et RoCE.
- Étape 3 – Configuration de la fabric : Activer PFC (priorité 3 pour RDMA) et ETS sur les commutateurs leaf. Configurer MTU 9000 pour la prise en charge des trames jumbo.
- Étape 4 – Configuration RoCE : Configurer chaque carte réseau Ethernet MCX653106A-HDAT avec RoCE v2 (routable) ou v1 (non routable). Définir le mode GID sur RoCE v2 avec une adressage IPv4.
- Étape 5 – Vérification : Exécuter les tests ib_write_bw et ib_send_lat entre les nœuds pour valider le débit et la latence. Surveiller avec
perfqueryet les délaismlnx_perf.
Pour une mise à l'échelle au-delà de 16 nœuds, passer à une topologie spine-leaf avec des commutateurs spine redondants prenant en charge jusqu'à 128 nœuds. La solution de carte réseau Ethernet MCX653106A-HDAT s'adapte linéairement sans reconfiguration de la fabric, car RoCE utilise ECMP pour la distribution de charge sur plusieurs chemins.
Le fonctionnement efficace des environnements RDMA/RoCE nécessite des outils spécialisés. Les pratiques suivantes sont recommandées :
- Détection de la congestion : Surveiller les trames de pause PFC par port à l'aide de la télémétrie du commutateur (par exemple, Mellanox SHARP). Des taux de pause élevés indiquent des incasts ou des micro-bursts nécessitant un réglage du contrôle de flux.
- Base de référence des performances : Utiliser
mlx5cmdet les délaisethtool -Spour collecter les compteurs RDMA par file d'attente. Suivre les complétions hors séquence et les retransmissions. - Réglage ECN et DCQCN : Activer Explicit Congestion Notification (ECN) sur les commutateurs et configurer les paramètres Dynamic Congestion Control (DCQCN) sur le pilote MCX653106A-HDAT(par exemple,
dcqcn_r_ai=40,dcqcn_r_hai=10). - Analyse des journaux : Examiner
/var/log/messagespour les échecs de connexion RDMA (par exemple, “mlx5_core: failed to create QP”). Vérifier que les index GID correspondent entre les points d'extrémité. - Mises à jour du firmware : Mettre à jour régulièrement le firmware de la carte réseau via
mlxfwmanager. Les spécifications MCX653106A-HDAT recommandent une base de référence de firmware de xx.36.1010 ou ultérieure pour des performances RoCE optimales. - Planification de la capacité : Pour les organisations qui estiment le prix actuel MCX653106A-HDAT et les délais MCX653106A-HDAT à vendre, projeter les taux de croissance du trafic RDMA et planifier les ratios de surabonnement des commutateurs leaf (généralement 3:1 pour les fabrics de stockage).
Un scénario de dépannage courant : une latence élevée unidirectionnelle avec zéro perte de paquets indique souvent des seuils ECN mal configurés ou des paramètres PFC asymétriques. Utiliser mlnx_qos pour vérifier le mode de confiance et les mappages DSCP-priorité sur tous les éléments du réseau.
La carte réseau serveur NVIDIA Mellanox MCX653106A-HDAT fournit une base prête pour la production pour le déploiement de réseaux RDMA/RoCE haute performance. Cette solution technique apporte une valeur quantifiable sur plusieurs dimensions :
- Performance : Débit jusqu'à 200 Gb/s par adaptateur avec une latence inférieure à la microseconde, permettant des charges de travail de stockage scale-out et de calcul distribué auparavant limitées par la surcharge TCP.
- Efficacité : Les décharges matérielles réduisent la consommation de CPU liée au réseau de >50 % à moins de 15 %, libérant ainsi des cœurs pour le traitement des applications.
- TCO : La solution de carte réseau Ethernet MCX653106A-HDAT réduit le nombre de nœuds requis pour un objectif de débit donné, diminuant les dépenses d'investissement et d'exploitation. Lors de l'évaluation du prix actuel MCX653106A-HDAT, considérez le délai de retour sur investissement de 9 à 12 mois provenant des gains d'efficacité seuls.
- Préparation à l'avenir : La prise en charge de PCIe 5.0 (rétrocompatible) et la programmabilité via DOCA garantissent la protection de l'investissement à mesure que les vitesses des centres de données migrent vers 200/400 GbE.
Pour les architectes recherchant un modèle de conception éprouvé en production, cette solution s'intègre de manière transparente aux opérations Ethernet existantes tout en libérant tout le potentiel de RDMA. Consultez la fiche technique MCX653106A-HDAT pour les dessins mécaniques détaillés, les diagrammes de synchronisation et les descriptions de fonctionnalités avancées. Pour des conseils d'approvisionnement, y compris le prix actuel MCX653106A-HDAT et les délais MCX653106A-HDAT à vendre, contactez les partenaires de distribution NVIDIA Mellanox agréés.

