Guide de solution technique : NVIDIA Mellanox MCX623106AN-CDAT pour l'optimisation RDMA/RoCE à faible latence et haut débit
March 11, 2026
Les architectures modernes de centres de données sont constamment sous pression pour offrir une latence plus faible et un débit plus élevé tout en maintenant l'efficacité du CPU pour les charges de travail applicatives. Le réseau TCP/IP traditionnel, avec sa surcharge de protocole inhérente, ne parvient souvent pas à répondre aux exigences du calcul haute performance (HPC), de l'intelligence artificielle (IA) et des services financiers. Ce livre blanc technique présente une solution complète construite autour de la carte serveur MCX623106AN-CDAT, axée sur la mise en œuvre de RDMA sur Ethernet convergé (RoCE) pour réduire considérablement la latence et augmenter le débit serveur. Destiné aux architectes réseau, aux ingénieurs avant-vente et aux responsables des opérations, ce document décrit l'architecture, les stratégies de déploiement et les meilleures pratiques opérationnelles pour tirer parti de cette technologie avancée.
1. Contexte du projet et analyse des exigences
Le principal défi abordé par cette solution est la "taxe sur les données" imposée par les piles réseau basées sur le noyau. Dans les scénarios nécessitant un échange de données à haute fréquence - tels que le stockage distribué, l'entraînement en apprentissage automatique ou l'analyse en temps réel - les cycles CPU sont gaspillés dans le traitement des paquets, les calculs de somme de contrôle et les changements de contexte. Les exigences fondamentales pour une infrastructure modernisée comprennent :
- Latence ultra-faible : La latence applicative de bout en bout doit être minimisée, idéalement dans la gamme sub-10 microsecondes pour la communication inter-serveurs.
- Déchargement CPU : Le tissu réseau doit gérer le mouvement des données, libérant les cœurs de processeur pour les tâches gourmandes en calcul.
- Scalabilité : L'architecture doit prendre en charge un tissu plat à large bande passante, capable de passer de dizaines à des milliers de nœuds sans dégradation des performances.
- Basé sur les normes : La solution doit tirer parti de l'infrastructure Ethernet existante pour protéger les investissements tout en introduisant des capacités avancées.
La carte NVIDIA Mellanox MCX623106AN-CDAT est apparue comme le composant fondamental pour répondre à ces exigences strictes. En tant que carte d'interface réseau Ethernet haute performance MCX623106AN-CDAT, elle est spécialement conçue pour permettre RDMA sur les réseaux Ethernet standard.
2. Conception globale de l'architecture réseau
L'architecture proposée est un tissu leaf-spine conçu pour un environnement RoCE sans perte. Les principes clés comprennent un cœur non bloquant avec des ratios de surabonnement suffisants et l'activation du contrôle de flux prioritaire (PFC) et de la notification explicite de congestion (ECN) sur tous les appareils réseau. La conception intègre le trafic de calcul, de stockage et de gestion sur un tissu Ethernet unifié à haute vitesse.
Au cœur de cette conception se trouvent les nœuds serveurs, chacun équipé de la carte réseau MCX623106AN-CDAT ConnectX PCIe. Cette carte se connecte aux commutateurs leaf via des liaisons 25GbE ou 100GbE, en fonction de la densité de la charge de travail. La couche spine assure une connectivité en maillage complet entre les feuilles, garantissant des chemins à faible latence de n'importe où à n'importe où. Les cibles de stockage, telles que les baies NVMe-oF, sont également connectées au même tissu à l'aide de cartes compatibles, permettant un accès direct à la mémoire depuis les nœuds de calcul.
3. Rôle de la NVIDIA Mellanox MCX623106AN-CDAT dans la solution
La carte MCX623106AN-CDAT n'est pas simplement une interface réseau ; c'est un précurseur d'unité de traitement de données (DPU) sophistiqué qui gère tous les aspects de la communication RDMA. Son rôle est multifacette :
- Moteur RDMA/RoCE : Le matériel de la carte implémente le protocole RoCEv2, encapsulant les transactions RDMA sur UDP/IP. Cela permet une communication routable à faible latence sans impliquer le CPU hôte.
- Déchargement du transport : Elle gère l'établissement des connexions, la séquence des paquets et le transport fiable, présentant une interface mémoire à mémoire simple aux applications.
- Interface PCIe Gen4 : Avec son interface hôte PCIe 4.0 à large bande passante, la carte garantit que les données réseau peuvent être déplacées vers et depuis la mémoire système à la vitesse de la ligne, empêchant les goulots d'étranglement internes. Les spécifications détaillées de la MCX623106AN-CDAT confirment sa capacité à saturer complètement les liaisons à haute vitesse.
4. Recommandations de déploiement et de mise à l'échelle
Un déploiement réussi nécessite une configuration minutieuse du tissu réseau et des hôtes finaux. Les étapes suivantes sont recommandées pour un déploiement progressif :
- Préparation du tissu : Avant de déployer les serveurs, configurez tous les commutateurs du chemin pour RoCE sans perte. Cela implique la configuration de PFC (802.1Qbb) pour la classe de trafic RoCE et l'activation d'ECN (802.1Qau) pour la gestion de la congestion.
- Installation des pilotes et du firmware : Installez les derniers pilotes NVIDIA WinOF-2 ou MLNX_OFED pour garantir la prise en charge complète des fonctionnalités de la carte MCX623106AN-CDAT. Vérifiez que le firmware correspond à la version spécifiée dans la fiche technique de la MCX623106AN-CDAT.
- Configuration de la qualité de service (QoS) : Mettez en œuvre des politiques de QoS pour prioriser le trafic RoCE (par exemple, valeurs DSCP) et garantir qu'il ne concurrence pas le trafic TCP normal. Une topologie typique implique le regroupement des nœuds de stockage et de calcul dans le même domaine RoCE pour des performances optimales.
- Considérations de mise à l'échelle : À mesure que le tissu s'agrandit, utilisez les fonctionnalités avancées de la carte telles que "RoCE Adaptive Routing" pour maintenir une faible latence sur plusieurs chemins. Assurez-vous que tous les nouveaux nœuds sont compatibles avec la MCX623106AN-CDAT avec l'infrastructure de commutateurs existante.
5. Surveillance opérationnelle, dépannage et optimisation
La maintenance d'un tissu RDMA nécessite des outils et des pratiques spécifiques. NVIDIA fournit une suite complète pour la gestion et la surveillance de la carte MCX623106AN-CDAT.
- Outils de surveillance : Utilisez Mellanox NEO de NVIDIA ou des outils standard tels que 'mlxlink' et 'mlxconfig' pour vérifier l'intégrité des liens, la température et les compteurs d'erreurs. Le sondage SNMP peut suivre les statistiques d'interface spécifiques au trafic RoCE.
- Indicateurs clés : Surveillez les trames de pause PFC, qui indiquent une pression sur les tampons dans le tissu. Un nombre élevé de pauses peut entraîner une inflation de la latence et nécessiter un réglage des tailles de tampons ou des seuils ECN.
- Mises à jour du firmware et des pilotes : Vérifiez régulièrement les mises à jour du firmware de la carte. Des optimisations de performance et de nouvelles fonctionnalités sont fréquemment ajoutées, améliorant les capacités de cette solution de carte d'interface réseau Ethernet MCX623106AN-CDAT.
- Optimisation des performances : Ajustez les paramètres tels que la modération des interruptions et les paramètres de regroupement pour équilibrer la latence et l'utilisation du CPU en fonction des profils d'application spécifiques.
6. Résumé et évaluation de la valeur
La solution technique centrée sur la carte NVIDIA Mellanox MCX623106AN-CDAT offre une voie claire et réalisable pour obtenir une communication à faible latence basée sur RDMA/RoCE et des gains significatifs en débit serveur. En déchargeant le traitement réseau sur du matériel dédié et en permettant l'accès direct à la mémoire, les organisations peuvent libérer tout le potentiel de leurs applications. Lorsque l'on considère le prix de la MCX623106AN-CDAT par rapport aux cycles CPU économisés et aux performances gagnées, le retour sur investissement est convaincant. Pour les entreprises à la recherche d'une carte MCX623106AN-CDAT à vendre ou planifiant un nouveau déploiement, cette carte se distingue comme un élément essentiel pour les centres de données de nouvelle génération à haute efficacité.

