Livre blanc technique sur l'adaptateur serveur Mellanox (NVIDIA Mellanox) MCX623106AN-CDAT
April 24, 2026
Ce livre blanc technique est conçu pour les architectes de réseau, les ingénieurs de prévente et les directeurs d'exploitation.Il s'agit d'un appareil de téléphonie mobile.L'article couvre la conception architecturale, les caractéristiques techniques clés, la mise en œuvre de la technologie RDMA/RoCE et la mise en place d'un réseau de centres de données à faible latence et à haut débit.stratégies de déploiement et de mise à l'échelle, ainsi que les opérations et le suivi, fournissant des orientations pratiques pour la mise en œuvre réelle.
Les centres de données modernes sont confrontés à trois défis fondamentaux: le CPU devient un goulot d'étranglement du réseau, une latence excessive d'accès au stockage et des frais généraux de communication incontrôlables pour les applications distribuées.La pile de protocole TCP/IP traditionnelle consomme plus de 30% des ressources du processeur pour le traitement du protocole et la copie de données lors de la communication parallèle à grande échelleDans le même temps, des applications telles que NVMe sur Fabrics, des frameworks distribués d'apprentissage automatique (par exemple, NCCL),et les bases de données en mémoire exigent une latence de bout en bout inférieure à 20 microsecondesCe qui est urgent, c'est une solution qui contourne le noyau et fournit un déchargement de transport au niveau du matériel.Le numéro de téléphone est le numéro d'identification de l'appareil.combiné avec les solutions technologiques RoCE.
Cette solution adopte une topologie à deux couches Spine-Leaf.NVIDIA Mellanox MCX623106AN-CDAT est une plateforme de téléphonie mobile.Les commutateurs Leaf sont configurés pour un fonctionnement RoCE sans perte, permettant le PFC (Priority Flow Control) et l'ECN (Explicit Congestion Notification),avec une file d'attente de priorité dédiée pour le trafic RoCELes principes de conception clés sont les suivants:
- Séparation des plans de contrôle et de données: Les flux de données RoCE sont entièrement traités par le matériel de l'adaptateur, tandis que les protocoles de contrôle (par exemple, ARP, DHCP) suivent toujours le chemin traditionnel.
- Tissu unifié: Ethernet transporte à la fois le trafic TCP/IP standard et le trafic RoCE, avec un isolement QoS obtenu grâce au marquage DSCP.
- Gestion de la congestion de bout en bout: basé sur l'algorithme DCQCN, établissant un mécanisme de rétroaction en boucle fermée entre les adaptateurs de source et les commutateurs.
LeLa carte d'adaptateur Ethernet MCX623106AN-CDATIl peut être connecté à différents commutateurs Leaf pour la redondance ou fournir un isolement physique entre le stockage et le trafic de calcul.
En tant que composante centrale du plan de données de cette solution, leCarte réseau PCIe avec adaptateur ConnectX MCX623106AN-CDATfournit les capacités décisives suivantes:
- Moteur de décharge RoCE matériel: gère le traitement de la couche de transport (segmentation, remontage, reconnaissance, retransmission) sans intervention du processeur hôte.
- Décharges dynamiques ConnectX: Distribue automatiquement le trafic sur plusieurs files d'attente, améliorant le débit sur les serveurs multi-cœurs.
- Interface hôte PCIe 4.0 x16: Largeur de bande théorique de 256 Gb/s, assurant l'absence de goulets d'étranglement pour le redirection de ligne.
- Décharges de stockage avancé: Prend en charge l'accélération matérielle pour NVMe sur Fabrics, y compris la recherche d'espace de noms et les vérifications d'intégrité des données.
Selon leLa feuille de données MCX623106AN-CDATet accessibles au publicLes spécifications MCX623106AN-CDAT, cet adaptateur atteint une latence port-port inférieure à 600 nanosecondes et prend en charge des vitesses de traitement de paquets allant jusqu'à 200 millions de paquets par seconde.Le prix MCX623106AN-CDATest très compétitif par rapport aux adaptateurs RoCE 100GbE comparables, etMCX623106AN-CDAT à vendreAvant la sélection, il est conseillé de confirmer que les modèles de serveurs figurent sur leCompatible avec MCX623106AN-CDATLes plateformes OEM traditionnelles ont toutes été validées.
Description de la topologie typique:
Une architecture Clos composée de 2 commutateurs Spine et 4 commutateurs Leaf.Le numéro de téléphone est le numéro d'identification de l'appareil.Les ports Leaf Uplink se connectent à Spines à un ratio de surabonnement de 4:1. Un VLAN dédié est utilisé pour le trafic RoCE.
Étapes de déploiement:
- Étape 1: Installer physiquement leLe numéro de téléphone est le numéro d'identification de l'appareil.dans une fente PCIe 4.0 x16, puis installez le dernier firmware et le pilote NVIDIA MLNX_OFED.
- Étape 2: sur les commutateurs, configurer PFC (priorité 3 recommandée) et ECN (définir Kmin/Kmax) pour le trafic RoCE.
- Étape 3: sur le système d'exploitation, activer le mode RoCEv2 et configurer les paramètres DCQCN (valeurs initiales: α=1, β=1, période de chronométrage 100μs).
- Étape 4: Utilisez les outils ib_write_bw et ib_write_lat pour vérifier la performance de base.
Recommandations de mise à l'échelle:Lorsque le cluster dépasse 500 nœuds, envisagez d'activer le contrôle de débit (PPC) de l'adaptateur et les tableaux de cartographie QoS, et envisagez d'utiliser plusieurs priorités RoCE pour éviter le blocage de la tête de ligne.
Les équipes d'opérations peuvent utiliser les outils suivants pour surveiller l'état de santé desSolution de carte d'adaptateur Ethernet MCX623106AN-CDAT:
- Je suis en train d' écrire un message.: Configurer les paramètres du firmware et gérer les mises à niveau du firmware.
- éthtool -S: Voir les compteurs d'émission/réception RoCE et le nombre de images de pause PFC.
- dépistage: Effectuer un diagnostic complet du réseau RoCE pour détecter les tempêtes de PFC inutiles.
- Télémétrie et HIST: Utilisez les tableaux de répartition de la latence historique intégrés à l'adaptateur pour identifier les anomalies de la latence de la queue.
Résolution de problèmes courants:
- Débit inférieur aux attentes: Vérifiez l'état de négociation PCIe (doit être Gen4 x16) et assurez-vous que la MTU est réglée uniformément à 9000 images jumbo.
- Échecs de connexion RoCE: vérifier la mappage DSCP et la configuration VLAN, en veillant à ce que le commutateur ne dépose pas de paquets marqués RoCE.
- Utilisation élevée du processeur: Cela peut indiquer que le déchargement matériel n'est pas activé; vérifiez les paramètres de déchargement de l'outil.
Recommandations d'optimisation:Pour les applications extrêmement sensibles à la latence (par exemple, le trading à haute fréquence, la réplication des journaux RDMA),envisager de changer le type de service RoCE de "connected" à "datagram" et de désactiver le contrôle de la congestion.
La solution RDMA/RoCE est basée sur laLe numéro de téléphone est le numéro d'identification de l'appareil.réduit la latence de bout en bout pour les applications distribuées d'un ordre de grandeur (de centaines de microsecondes à des dizaines de microsecondes) sans remplacer l'infrastructure Ethernet existante,tout en libérant simultanément 20 à 30% des ressources de calcul du processeurPour des scénarios tels que la formation de l'IA, le stockage hyperconvergé et l'analyse en temps réel, cela se traduit directement par des temps de réalisation de tâches plus courts et une densité de serveur plus élevée.Solution de carte d'adaptateur Ethernet MCX623106AN-CDAT, il démontre que "l'Ethernet sans perte + smart NIC" est une voie viable pour atteindre à la fois un débit élevé et une faible latence.La feuille de données MCX623106AN-CDAT, veuillez consulter la documentation officielle de NVIDIA ou contacter une équipe d'architecture de solutions.

