Amélioration de la latence faible et du débit serveur RDMA/RoCE
April 28, 2026
Ce livre blanc technique fournit aux architectes, ingénieurs de prévente et responsables des opérations une conception de référence complète centrée sur lesNVIDIA Mellanox MCX631432AN-ADAB est une plateforme de téléchargementLa solution répond aux défis des centres de données modernes, à savoir les frais généraux du processeur liés aux piles réseau héritées, la latence de stockage incohérente et la bande passante 25GbE sous-utilisée, en déployant leLe système d'exploitation de l'appareil doit être équipé d'une carte de connexion à l'émetteur.comme la pierre angulaire d'un tissu RDMA/RoCE convergent de haute performance.
1. Analyse des antécédents et des besoins du projet
Les réseaux de centres de données conventionnels reposent sur TCP/IP pour le trafic de calcul et de stockage, obligeant le processeur à traiter chaque paquet.N.V.M. sur les tissus (N.V.M. sur les tissus)Cette approche basée sur le logiciel pose trois problèmes fondamentaux: une latence élevée et variable (souvent supérieure à 50 μs pour les opérations de stockage),une taxe importante sur les processeurs (30 à 60% pour le traitement de réseau)Comme 25GbE devient la vitesse de couche d'accès standard, ces inefficacités ne sont plus acceptables.Les exigences cibles de cette solution sont les suivantes:: latence de stockage de bout en bout inférieure à 5 μs, moins de 10% d'utilisation du processeur pour l'E/S du réseau et utilisation complète des ports 25 GbE par serveur.
2. Conception globale de l'architecture réseau/système
L'architecture proposée adopte une topologie à deux niveaux avec Ethernet sans perte à la couche 2.Chacune est configurée avec PFC (Priority Flow Control) et ECN (Explicit Congestion Notification) pour activer le RoCEv2La décision architecturale clé est de déployer leLe système de connectivité de l'équipement est équipé d'un système de connectivité à double port de 25 GbE SFP28Une file d'attente de priorité dédiée basée sur DSCP est allouée pour le trafic RoCE, séparée du trafic IP best-effort.La gestion centralisée utilise Cumulus Linux ou SONiC de NVIDIA pour la configuration des commutateurs, tandis que l'orchestration côté hôte tire parti de la pile NVIDIA OFED.
3Rôle et caractéristiques clés du NVIDIA Mellanox MCX631432AN-ADAB
Dans cette solution, leLe code de l'émetteur est le code de l'émetteur.Les serveurs de produits de base sont des nœuds à faible latence et à haut débit.Le numéro de série de l'appareil est le numéro de série de l'appareil, l'adaptateur intègre plusieurs fonctionnalités avancées:
- Déchargement RDMA matériel:Machine à l'état complet RoCEv2 en silicium, éliminant le traitement du transport par logiciel.
- Pour les appareils de type SFP28, les caractéristiques suivantes doivent être remplies:Prend en charge à la fois le câblage optique actif et le câblage DAC, avec un traitement PPS indépendant par port.
- Interface hôte PCIe 4.0 x16:Fournit jusqu'à 200 Gbps de bande passante bidirectionnelle, ne laissant aucun goulot d'étranglement entre l'adaptateur et la mémoire hôte.
- Décharge de chiffrement en ligne:Traitement IPsec et TLS à vitesse de ligne, essentiel pour les réseaux de stockage à confiance zéro.
- Accélération NVMe-oF:La mise en file d'attente des commandes et le placement des données basés sur le matériel sont spécialement optimisés pour NVMe/TCP et NVMe/RoCE.
Selon le fonctionnaireLes spécifications du MCX631432AN-ADAB, l'adaptateur offre une latence matérielle inférieure à 800ns et prend en charge jusqu'à 200 millions de messages par seconde.Les applications peuvent passer des sockets TCP aux verbes RDMA avec un minimum de changements de codePour les organisations qui évaluent cette solution, il est important de noter que lesCompatible avec MCX631432AN-ADABLa liste des serveurs comprend toutes les principales plateformes OEM (Dell PowerEdge, HPE ProLiant, Lenovo ThinkSystem et Supermicro) avec des pilotes certifiés pour RHEL, Ubuntu, Rocky Linux et Windows Server.
4Recommandations pour le déploiement et la mise à l'échelle
Un déploiement typique au niveau du rack suit ce schéma: chaque nœud de calcul ou de stockage reçoit unSolution de carte d'adaptateur Ethernet MCX631432AN-ADAB, avec ses doubles ports configurés en liaison LACP active-active pour la redondance ou comme chemins de tissu séparés (un vers la feuille A, un vers la feuille B).
- Chaque serveur → deux liaisons 25GbE → deux commutateurs de feuille séparés (supportant un basculement sans coup).
- Commutateurs à feuille → liaisons ascendantes 100 GbE → deux commutateurs à colonne vertébrale pour un maillage complet sans blocage.
- Marquage DSCP dédié (par exemple, 46) pour le trafic RoCE sur tous les commutateurs avec PFC activé sur cette classe.
Pour une mise à l'échelle au-delà de 200 serveurs, nous recommandons de déployer un cluster RoCE séparé pour le stockage et le calcul respectivement, ou d'utiliser la politique QoS pour garantir la priorité du trafic RoCE de stockage.Le réglage du tampon sur les interrupteurs de feuilles est également essentiel: les tailles de tampon partagé par port devraient augmenter à 12 MB pour les ports 25GbE afin d'absorber les micro-explosions sans perte de paquets.MCX631432AN-ADAB à vendreles catalogues des fournisseurs pour la tarification en volume, et leLe prix MCX631432AN-ADABLe taux d'intérêt par nœud est généralement amorti dans un délai de six mois en raison des économies de CPU et des gains d'efficacité du stockage.
5Opérations, surveillance et réglage des performances
Après le déploiement, les outils et pratiques suivants assurent une faible latence soutenue:
- Surveillance du côté hôte:Utilisation
Il y a un problème.etéthtool -Spour suivre les compteurs RDMA par file d'attente, la retransmission PCIe et les marqueurs de congestion RoCE. - Télémétrie du commutateur:Activer les histogrammes de surveillance des PFC et de marquage ECN pour détecter le blocage de la tête de ligne avant qu'il n'affecte la production.
- Recommandations de réglage:Réglage
lqéquilibrepour isoler les cœurs du processeur pour les files d'attente de fin de RDMA; augmenter la taille maximale de la demande de lecture PCIe à 4096 octets; désactiver l'ECN sur la file d'attente de meilleur effort pour éviter les faux signaux de congestion. - Durée de vie du firmware et du pilote:Abonnez-vous aux notes de sortie de NVIDIA OFED; leLe système d'exploitation de l'appareil doit être équipé d'une carte de connexion à l'émetteur.prend en charge la mise à niveau du micrologiciel en place sans redémarrage de l'hôte en raison de banques d'images doubles.
Pour le dépannage, les compteurs d'erreur intégrés de l'adaptateur (par exemple, erreurs de symbole, défaillances d'intégrité de liaison locale) fournissent un diagnostic rapide.Compatible avec MCX631432AN-ADABmatrice d'interopérabilité maintenue par NVIDIA.
6. Résumé et évaluation de la valeur
LeNVIDIA Mellanox MCX631432AN-ADAB est une plateforme de téléchargement- une solution basée sur la technologie offre une valeur mesurable dans trois dimensions: performance, TCO et simplicité opérationnelle.et traitement du protocole de stockage du processeur vers l'adaptateurLa conception à double port 25GbE assure une connectivité de serveur à l'épreuve du futur.et la pile de logiciels NVIDIA OFED mature réduit le risque d'intégrationPour les architectes qui planifient un déploiement de 25GbE ou une modernisation de l'infrastructure TCP existante, cette solution techniqueLe système de connectivité de l'équipement est équipé d'un système de connectivité à double port de 25 GbE SFP28 représente une voie éprouvée, évolutive et protégée par l'investissement vers le succès de RDMA/RoCE.

