NVIDIA Mellanox MCX556A-ECAT en action : RDMA/RoCE permet une latence ultra-faible et des avancées majeures en débit serveur
April 23, 2026
Dans le stockage distribué, le calcul haute performance (HPC) et les clusters de formation à l'IA, la latence du réseau et la surcharge du processeur ont longtemps limité l'efficacité globale des serveurs. Un déploiement récent chez un fournisseur de services cloud à grande échelle démontre commentNVIDIA Mellanox MCX556A-ECATrépond à ces défis grâce aux technologies RDMA et RoCE, offrant des gains mesurables en matière de réduction du débit et de la latence.
Le client exploite un cluster de stockage Ceph de plusieurs pétaoctets prenant en charge des milliers de machines virtuelles. Avant la mise à niveau, leur infrastructure 25 GbE utilisant le standard TCP/IP souffrait d'une utilisation élevée du processeur (plus de 60 % sur les nœuds de stockage) et d'une latence incohérente lors des pics de charge. Les fenêtres de sauvegarde dépassaient fréquemment huit heures et les tâches de formation à l'IA connaissaient des blocages d'E/S. L'équipe avait besoin d'une solution capable de réduire l'intervention du processeur, de réduire la latence et d'évoluer sans une refonte complète de l'infrastructure. Après avoir examiné leFiche technique MCX556A-ECATet en comparantSpécifications du MCX556A-ECAT, ils ont sélectionné leMCX556A-ECATcomme composant principal de mise à niveau.
L'architecture centrée surCarte adaptateur Ethernet MCX556A-ECAT, un adaptateur 100GbE à double port prenant en charge PCIe 3.0/4.0 x16. Déployé en tant queCarte réseau PCIe adaptateur MCX556A-ECAT ConnectX, il a activé RoCE v2 sur la topologie feuille-épine existante avec un minimum de changements de commutateur. Les principales étapes de déploiement comprenaient :
- Remplacement des anciens adaptateurs 25GbE par leMCX556A-ECATsur 40 nœuds de stockage et 150 nœuds de calcul.
- Activation des déchargements matériels : NVMe over Fabrics (NVMe-oF), GPUDirect RDMA et T10-DIF pour l'intégrité des données.
- Configuration du contrôle de flux prioritaire (PFC) et de la sélection de transmission améliorée (ETS) pour un transport RoCE sans perte.
- VérificationCompatible MCX556A-ECATstatut avec les commutateurs Mellanox Spectrum existants et l'optique QSFP28.
L'ensemble du déploiement a duré deux week-ends, sans aucun temps d'arrêt grâce à la migration en direct pour les charges de travail de calcul.
Les mesures post-déploiement ont révélé des améliorations spectaculaires sur les indicateurs clés. Le tableau suivant résume la comparaison avant/après :
| Métrique | Avant (25GbE TCP/IP) | Après (MCX556A-ECAT avec RoCE) | Amélioration |
|---|---|---|---|
| Utilisation du processeur du nœud de stockage | 62% | 18% | ↓ 71% |
| Latence moyenne (lecture aléatoire 4K) | 450 µs | 42 µs | ↓ 90,7% |
| Débit global du cluster | 38 Go/s | 172 Go/s | ↑ 353% |
| Durée de la fenêtre de sauvegarde | 8,5 heures | 1,8 heures | ↓ 79% |
Au-delà des chiffres, l'équipe d'ingénierie a signalé que le RDMA réduisait considérablement la gigue, éliminant les pics de « latence de queue » qui affectaient auparavant les points de contrôle de formation de l'IA. En tant que matureSolution de carte adaptateur Ethernet MCX556A-ECAT, la carte a également simplifié le dépannage via la télémétrie intégrée et la notification de congestion. Pour les organisations évaluantPrix du MCX556A-ECATMalgré les gains de performances, le client a obtenu un retour sur investissement en neuf mois uniquement grâce aux économies de cœur de processeur et à une exécution plus rapide des tâches par lots. L'adaptateur est maintenantMCX556A-ECAT à vendrevia plusieurs partenaires de distribution, rendant ce niveau de performance également accessible aux entreprises de taille intermédiaire.
Le déploiement prouve que leMCX556A-ECATtient ses promesses : latence RDMA inférieure à la microseconde, déchargement drastique du processeur et mise à l'échelle linéaire du débit. Que vous exécutiez des bases de données distribuées, des simulations HPC ou du stockage NVMe-oF, leNVIDIA Mellanox MCX556A-ECAToffre une base à l’épreuve du temps. Alors que le 100GbE devient la nouvelle norme pour les centres de données, les solutions construites autour de cet adaptateur continueront à surpasser les anciennes piles TCP/IP. Pour une planification détaillée, reportez-vous au site officielFiche technique MCX556A-ECATou consultez des architectes de solutions pour validerCompatible MCX556A-ECATconfigurations pour votre environnement spécifique.

