Solution technique : Adaptateur serveur NVIDIA Mellanox MCX631102AN-ADAT – Transport RDMA/RoCE à faible latence
April 27, 2026
Ce livre blanc technique fournit une référence complète pour les architectes de réseau, les ingénieurs de prévente et les responsables des opérations qui envisagent de déployer desNVIDIA Mellanox MCX631102AN-ADAT est une plateforme de téléphonie mobile.La solution est axée sur l'élimination des frais de stockage TCP/IP, permettant le transport RDMA/RoCEv2 à faible latence,et maximiser le débit du serveur pour le stockage, des bases de données et des charges de travail d'IA.
1. Analyse des antécédents et des besoins du projet
Les architectures modernes de centres de données sont confrontées à trois défis convergents: la croissance explosive du trafic est-ouest, le passage au stockage désagrégé (NVMe-oF, vSAN),et la nécessité de préserver les cycles de processeur pour la logique d'application plutôt que pour le traitement réseau. Les déploiements 25GbE hérités utilisant le TCP/IP traditionnel souffrent d'une latence de queue élevée (200 500 μs pour les opérations de stockage), d'un traitement excessif du noyau par paquet et d'un débit de petits paquets inefficace.L'exigence de base est une faible latence, un tissu sans perte qui permet un accès direct à la mémoire entre serveurs sans intervention du processeur, tout en maintenant la compatibilité avec l'infrastructure Ethernet existante.
2. Conception globale de l'architecture réseau et système
La solution proposée adopte une topologie à deux niveaux avec une configuration RoCEv2 sans perte.
- Couche physique:Connexions SFP28 de 25 GbE depuis chaque serveur de calcul/stockage vers les commutateurs de feuille, 100 GbE ou 400 GbE vers le haut depuis la feuille vers la colonne vertébrale
- Tissu convergé:Tissu Ethernet partagé transportant à la fois le trafic TCP standard et les flux sans perte RoCEv2, en utilisant la hiérarchisation basée sur DSCP
- Régulation du débit:Contrôle des flux prioritaires (PFC) sur les priorités sans perte, marquage ECN pour la notification de congestion et négociation DCBX
- Côté hôte:Des emplacements dédiés PCIe 4.0 x16 pour chacunLe système de détection de l'émission de CO2 doit être équipé d'un système de détection de CO2 de qualité supérieure., avec SR-IOV activé pour les environnements virtualisés
Pour les déploiements NVMe-oF, chaque serveur de stockage héberge deuxLe système de connectivité est équipé d'un système de connectivité à double port de 25 GbE.Les adaptateurs: un pour le trafic d'applications front-end et un pour le trafic de réplication et de reconstruction back-end, assurant l'isolement des défauts et la séparation de la qualité de service.
3. Rôle et caractéristiques clés du MCX631102AN-ADAT dans la solution
LeLe numéro de série est le numéro de série de l'appareil.sert de dispositif de point final critique qui permet l'accélération RDMA côté hôte.
| Caractéristique | Bénéfice fonctionnel pour RDMA/débit |
|---|---|
| Décharges de matériel | RoCEv2, DCQCN, DCT, Matching de balises ¢ aucune implication du processeur pour une gestion fiable des connexions |
| Interface PCIe 4.0 x16 | Largeur de bande d'hôte suffisante pour un taux de ligne global de 50 Gbps (25 Gbps par port) |
| Moteur de réception vectorié | Le scatter-gathering et le scattering d'en-tête améliorent le débit de petits paquets à 37 Mpps par port |
| Une confiance solide | Vérification de l'intégrité du logiciel ferme pour les déploiements de services financiers et de services financiers sensibles à la sécurité |
| SR-IOV avec jusqu'à 256 VF | Transfert direct des files d'attente RoCE vers les machines virtuelles/conteneurs sans frais généraux de virtualisation des hyperviseurs |
En référence à laLa feuille de données MCX631102AN-ADAT, l'adaptateur fournit également l'horodatage matériel (compteur d'horodatage en marche libre avec une résolution de 1ns), permettant une PTP/SyncE précise pour les applications de trading financier ou de bord de télécommunications.
4Recommandations de déploiement et de mise à l'échelle (topologie typique)
Pour les déploiements en terrain brun, une approche par étapes est recommandée:
- Étape 1 DéployerLe numéro de série est le numéro de série de l'appareil.sur tous les serveurs de stockage exécutant le logiciel cible NVMe-oF (par exemple, SPDK, TargeR). Configurer les ports de commutation avec les priorités PFC 3 pour RoCE et 1 pour CNP, en utilisant la négociation automatique DCBX.
- Phase 2 Activation du plan de calcul:Installez des adaptateurs sur les serveurs de calcul exécutant des bases de données ou des frameworks d'IA (TensorFlow, PyTorch avec NCCL).
- Phase 3: consolidation du réseauMigrer des charges de travail TCP de haute sensibilité (analyse en temps réel, microservices sidecars) vers RoCE avec des types de service UC ou RC.
Liste de vérification de la topologie:
- Tous les commutateurs de feuille doivent prendre en charge le RoCE sans perte (PFC + ECN) avec un espace de tête de tampon adéquat.
- MTU de bout en bout d'au moins 2000 octets (de préférence 9000 pour les images jumbo)
- Accès au routage unicast pour le trafic RoCEv2 (porte UDP 4791)
- ValidéeCompatible avec le MCX631102AN-ADATliste: NVIDIA Spectrum (préférée), Cisco Nexus 9300-EX/FX, Arista 7050X/7050X3 avec profils DCBX
5. Opérations et maintenance ️ Surveillance, dépannage et optimisation
Le succès du déploiement de la production dépend d'une télémétrie adéquate et d'un traitement proactif des exceptions.
- Détection de la congestion:Surveiller les compteurs de trame de pause PFC par port sur les commutateurs et les statistiques de paquets ECN des adaptateurs à l'aide d'ethtool -S ou mlxlink.
- Assurance de la latence SLO:Mettre en place une surveillance de la latence par timestamp matériel avec des outils tels que ucxtrace ou mlx5cmd; RTT typique en bonne santé inférieure à 10 μs dans le rack, inférieure à 30 μs à travers les épines.
- Alignement du firmware et du pilote:Utilisez le firmware validé de NVIDIA (voirLes spécifications du MCX631102AN-ADATpour les numéros exacts de pièces) et les versions du conducteur (mlx5_core ≥ 5,9).
- RMA et gestion du cycle de vie:Lors de l'analyseLe prix MCX631102AN-ADATversus TCO, incluant un cycle de mise à jour de nœud de 3 à 5 ans; liste de plusieurs distributeurs mondiauxMCX631102AN-ADAT à vendreavec une garantie de plusieurs années.
Pour le dépannage, les pièges les plus courants sont les suivants: seuils de tampon de commutation mal configurés (ce qui conduit à des tempêtes de trame en pause), type de GID non correspondant (de préférence type de GID 2 pour IPv6 RoCEv2),et l'absence d'activation de décharge matérielle dans les verbes d'application (assurer ibv_reg_mr avec accès d'écriture local).
6. Résumé et évaluation de la valeur
LeNVIDIA Mellanox MCX631102AN-ADAT est une plateforme de téléphonie mobile.fournit une production durcieSolution de carte d'adaptateur Ethernet MCX631102AN-ADATpour les organisations qui cherchent à débloquer de véritables performances à faible latence sur une infrastructure 25GbE mature.la solution atteint une latence NVMe-oF inférieure à 20 microsecondes, récupère > 30% des cœurs du processeur pour les charges de travail d'application, et maintient un débit global de 50 Gbps avec une faible efficacité de paquetage auparavant possible uniquement sur les adaptateurs 100 GbE.Pour les architectes qui planifient des grappes de stockage hyperconvergées ou d'IA en milieu vert, leLe numéro de série est le numéro de série de l'appareil.représente un facilitateur stratégique offrant le profil de latence d'InfiniBand avec la simplicité opérationnelle d'Ethernet.

