NVIDIA Mellanox MCX653106A-HDAT Adaptateur serveur en action: RDMA / RoCE Transport et serveur à faible latence
April 30, 2026
Dans les environnements modernes des centres de données, allant du stockage distribué et du commerce à haute fréquence aux grappes de formation à l'IA à grande échelle, les piles de protocoles TCP/IP traditionnels sont devenues un goulot d'étranglement majeur.Les frais généraux de mise en réseau du noyau, la copie de données et le changement de contexte consomment des ressources CPU importantes tout en introduisant une latence imprévisible.Cette étude de cas examine comment un fournisseur d'infrastructures cloud leader a surmonté ces défis en déployant leNVIDIA Mellanox MCX653106A-HDAT est un appareil de téléphonie mobileLes résultats de cette étude sont les suivants:
L'infrastructure 25GbE existante du fournisseur, exécutant le protocole TCP standard, avait du mal à suivre le rythme du trafic de stockage NVMe-oF et des charges de travail d'analyse en temps réel.L'utilisation du processeur sur les nœuds de stockage dépassait souvent 70% pour le traitement du réseauLa latence de bout en bout entre les nœuds de calcul et de stockage a fluctué entre 50 et 150 microsecondes.provoquant des pics de latence de queue qui ont eu un impact sur les accords de niveau de serviceL'équipe d'ingénieurs a reconnu qu'un changement fondamental de l'architecture des réseaux était nécessaire, un changement qui contourne le noyau et permet un accès direct à la mémoire entre les terminaux.
Après avoir évalué plusieurs options, l'équipe a sélectionné lesCarte d'adaptateur Ethernet MCX653106A-HDATIl est basé sur l'architecture ConnectX-6, ceCarte réseau PCIe avec adaptateur MCX653106A-HDAT ConnectXLe déploiement a suivi une approche par étapes:
- Première phase:Remplacez les NIC héritées dans les nœuds de stockage (10 nœuds exécutant Ceph) par le nouvel adaptateur.
- Deuxième étape:Configurer l'Ethernet sans perte à l'aide du DCB (Contrôle prioritaire du flux et ETS) sur les NIC et les commutateurs haut de gamme.
- Étape 3:Migrer le trafic d'application des sockets TCP vers les verbes basés sur RDMA et NVMe-oF sur RoCE.
- Étape 4:Élargir le déploiement aux nœuds de calcul gérant l'analyse en temps réel.
Les ingénieurs consultant leLa feuille de données MCX653106A-HDATetLes spécifications MCX653106A-HDATIl a confirmé une pleine compatibilité avec le tissu de commutation Mellanox existant et la distribution Linux déployée (Ubuntu 22.04 avec les pilotes MLNX_OFED).Compatible avec le MCX653106A-HDATL'écosystème s'est avéré complet, ne nécessitant aucun changement de matériel au-delà du remplacement du NIC lui-même.
Les tests post-déploiement ont révélé des améliorations substantielles dans tous les indicateurs clés.
| Pour la métrique | Avant (25GbE TCP) | Après (MCX653106A-HDAT RoCE) | Amélioration |
|---|---|---|---|
| La latence moyenne (P99) | 120 μs | 8 μs | Réduction de 93% |
| CPU du nœud de stockage (chemin réseau) | ~65% | ~ 12% | 5.4 fois de réduction |
| Débit de lecture NVMe-oF (par nœud) | 18 Gb/s | 96 Gb/s | 5.3 fois plus |
| Taux de diffusion des messages (64B paquets) | 15 Mpps | 215 Mpps | 14.3 fois plus |
Au-delà de ces gains quantitatifs, l'équipe a observé plusieurs avantages qualitatifs.Solution de carte d'adaptateur Ethernet MCX653106A-HDATa permis un véritable mouvement de données à copie zéro entre la mémoire d'application et le stockage à distance, éliminant les problèmes d'épuisement du tampon qui ont précédemment causé des pannes intermittentes lors de rafales de trafic.Pour la charge de travail d'analyse, la migration vers la RDMA a réduit de 62% les délais de réalisation des travaux, améliorant directement les résultats commerciaux.Le prix MCX653106A-HDATLa réduction de 30% du nombre de nœuds de stockage (en raison d'une efficacité par nœud plus élevée) s'est avérée rentable en neuf mois.MCX653106A-HDAT à vendreL'accès au framework DOCA est également assuré par les partenaires de NVIDIA, ce qui débloque une programmation future pour les fonctions réseau personnalisées.
Le déploiement deNVIDIA Mellanox MCX653106A-HDAT est un appareil de téléphonie mobileLa combinaison de RoCE déchargée par le matériel a permis de transformer l'infrastructure du fournisseur d'un environnement limité par TCP en un tissu à haute performance et à faible latence capable de prendre en charge les charges de travail modernes.,L'interface PCIe 4.0 et l'écosystème logiciel complet répondent aux trois exigences critiques des centres de données d'aujourd'hui: une latence réduite, un débit accru et une efficacité améliorée du processeur.
Pour les architectes évaluant des améliorations similaires, le parcours commence par la vérificationCompatible avec le MCX653106A-HDATLes composants, y compris les commutateurs, les câbles et les systèmes d'exploitation.La feuille de données MCX653106A-HDATIl s'agit d'un outil qui fournit des spécifications électriques, thermiques et mécaniques pour la planification de l'intégration.Carte d'adaptateur Ethernet MCX653106A-HDATLe fournisseur élargit maintenant le déploiement pour inclure GPU direct RDMA pour les charges de travail d'inférence d'IA,la validation de cet adaptateur comme une pierre angulaire de l'architecture moderne des centres de données.

