Solution Technique pour l'Adaptateur Serveur NVIDIA Mellanox MCX4121A-ACAT : Architecture RDMA/RoCE pour une Faible Latence et un Maximum

March 9, 2026

1. Analyse des antécédents et des besoins du projet

Les centres de données modernes sont constamment sous pression pour supporter des charges de travail de plus en plus exigeantes, y compris l'analyse en temps réel, l'apprentissage automatique distribué,et stockage logiciellement défini haute performance. Les architectures de réseau traditionnelles, fortement dépendantes de la pile TCP/IP, introduisent une latence et des frais généraux importants pour le processeur.L'approche du "kernel bypass" devient non seulement un avantage, mais une nécessité.Les architectes de réseau et les ingénieurs de stockage recherchent des solutions qui peuvent libérer tout le potentiel des architectures NVMe-oF et des microservices sans nécessiter une révision complète de l'infrastructureLes principales exigences identifiées dans un déploiement à grande échelle typique comprennent une latence inférieure à 10 microsecondes pour le trafic de stockage, une réduction de 40% des frais généraux du processeur pour l'E/S du réseau,et un tissu unifié capable de transporter à la fois le trafic TCP/IP standard et le trafic RDMA à très faible latence.

2. Conception globale de l'architecture réseau et système

L'architecture proposée repose sur un tissu Ethernet convergé sans perte conçu pour prendre en charge à la fois le trafic LAN standard et le trafic de stockage sur la même infrastructure physique.La conception tire parti d'une topologie de feuille-colonne vertébrale avec des commutateurs capables de RoCE (RDMA sur Ethernet convergé)Les principes de conception clés sont les suivants:

Tissu convergé:Un réseau 25GbE unique transporte tous les types de trafic, éliminant ainsi le besoin de réseaux de stockage et de données distincts (convergence LAN/SAN).
Fondation Ethernet sans perte:mise en œuvre du contrôle des flux prioritaires (PFC, IEEE 802.1Qbb) et de la sélection améliorée de la transmission (ETS, IEEE 802.1Qaz) pour créer une classe de service sans perte pour le trafic RDMA,prévenir les chutes de paquets qui causeraient autrement des pics de latence catastrophiques.
RDMA de bout en bout:Déploiement de RoCEv2, qui fonctionne à la couche réseau, permettant à RDMA de traverser les limites de L3 et d'évoluer au-delà d'un seul domaine de diffusion, contrairement à RoCEv1.

Dans cette architecture, le terminal du serveur est le composant le plus critique.NVIDIA Mellanox MCX4121A-ACAT est un appareil de télécommunicationL'adaptateur serveur joue son rôle central, agissant comme l'interface intelligente qui exécute le protocole RoCE et décharge les fonctions réseau complexes du processeur hôte.

3. Le rôle du NVIDIA Mellanox MCX4121A-ACAT dans la solution

LeCarte d'adaptateur Ethernet MCX4121A-ACATCette fonctionnalité, basée sur le contrôleur ConnectX-4 Lx, est la pierre angulaire du déploiement côté serveur.Le système de connectivité de base est un système de connectivité de base.adaptateur fournit l'accélération matérielle nécessaire pour atteindre les objectifs du projet.

Moteur RoCE matériel:L'adaptateur implémente l'intégralité du protocole RoCEv2 en silicium, ce qui signifie que les opérations RDMA, y compris la lecture/écriture en mémoire et l'envoi/réception de verbes, sont entièrement traitées sur le NIC,contourner le noyau et éliminer les commutateurs de contexteIl s'agit du mécanisme principal pour atteindre une latence d'application à application inférieure à 10 microsecondes.
NVMe-oF déchargement:Pour le trafic de stockage, leLe code de l'émetteur est le code de l'émetteur.Il décharge le traitement de la paire de file d'attente NVMe, permettant à la cible de stockage ou à l'initiateur de gérer des millions de IOPS avec une intervention minimale du processeur.
Modération dynamique à interruption:L'adaptateur modère intelligemment les interruptions, les fusionnant en fonction de la charge de trafic.Cela réduit les frais généraux du processeur hôte pendant les scénarios à haut débit tout en maintenant une faible latence pour le trafic sensible en permettant aux interruptions pour des files d'attente spécifiques de contourner la modération.
La mise en œuvre de la qualité du service (QoS):Il prend en charge la qualité de service basée sur le matériel, permettant aux architectes d'assigner différentes classes de trafic (par exemple, stockage, gestion, calcul) à différentes files d'attente de priorité.Cela garantit que le trafic RDMA reçoit une bande passante garantie et une faible latence, même en cas de congestion du réseau.

4Recommandations de déploiement et de mise à l'échelle

Une approche de déploiement par étapes est recommandée pour minimiser les risques.

Phase pilote:Déployer un petit groupe de serveurs de stockage et de nœuds de calcul, chacun équipé duLe code de l'émetteur est le code de l'émetteur.Valider la configuration PFC/ETS pour assurer un tissu sans perte pour le trafic RoCE.
Intégration et tests:Configurer leSolution de carte d'adaptateur Ethernet MCX4121A-ACATUtilisez les pilotes et les outils recommandés par NVIDIA commele meilleurpour mesurer la latence de référence (ib_send_lat) et la bande passante (ib_send_bw).
Étalonnage du tissu:Une fois que le pilote est stable, évoluer vers une topologie pleine feuille-colonne vertébrale.NVIDIA Mellanox MCX4121A-ACAT est un appareil de télécommunicationpermet l'agrégation de liaisons active/en veille ou 802.3ad pour une redondance et un débit accru.
Vérification de la compatibilité:Vérifiez toujoursCompatible avec MCX4121A-ACATLes versions matérielles et du firmware.Les spécifications MCX4121A-ACATetFiche de données MCX4121A-ACATPour la planification des achats, il convient de vérifier la compatibilité avec les cartes mères des serveurs, les paramètres du BIOS et le firmware des commutateurs.Le prix MCX4121A-ACATLa production et la disponibilité peuvent être obtenues par l'intermédiaire de distributeurs agréés, en particulier lors de la planification de projets à grande échelle.MCX4121A-ACAT à vendreles achats.

5Surveillance opérationnelle, dépannage et optimisation

Le maintien des performances maximales nécessite une surveillance proactive et une solide compréhension du comportement des tissus RoCE.

Surveillance du trafic RDMA:Utilisez des outils commeéthtool,Mlxstat, et de NVIDIAUFM (gérant unifié des tissus)Pour surveiller la température de l'adaptateur, les erreurs de liaison et les états des paires de files d'attente RDMA, les mesures critiques comprennent: les dépôts de paquets RoCE, le nombre de trames de pause PFC et l'utilisation de la bande passante PCIe.
Isolement des défauts:Une latence élevée dans le trafic RDMA est presque toujours causée par des chutes de paquets en raison de la congestion.il indique un goulot d'étranglement en aval (e- par exemple, sur un port de sortie d'interrupteur).Le code de l'émetteur est le code de l'émetteur.Les compteurs avancés peuvent aider à localiser la source exacte de la congestion.
La mise à jour de performance:
- Taille de la MTU:Augmenter à 9000 octets (jumbo frames) à la fois sur l'adaptateur et les commutateurs pour réduire les frais généraux par paquet et améliorer les performances d'E/S.
- Réception de l'échelle de côté (RSS):Assurez-vous que RSS est configuré pour distribuer le trafic sur plusieurs cœurs de processeur, ce qui permet à l'adaptateur de gérer des taux élevés de paquets par seconde (PPS).
- Le réglage du tampon:Ajuster les tampons de réception et de transmission de l'adaptateur en fonction des caractéristiques de la charge de travail (par exemple, des tampons plus grands pour le stockage, plus petits pour le calcul haute performance).

6Conclusion et évaluation de la valeur

LeLe code de l'émetteur est le code de l'émetteur.En intégrant cet adaptateur dans un tissu RoCEv2 bien conçu,Les organisations peuvent obtenir des résultats transformateurs: le débit du serveur peut être maximisé lorsque le processeur est libéré des frais de réseau; la latence est considérablement réduite à une microseconde à un chiffre, permettant des applications en temps réel;et le coût total de possession est réduit grâce à la convergence des infrastructuresPour les architectes qui planifient leur feuille de route 25GbE, laLe code de l'émetteur est le code de l'émetteur.représente un investissement stratégique dans les performances et l'efficacité, soutenu par le solide écosystème NVIDIA Mellanox.