NVIDIA Mellanox MCX653106A-HDAT en action: transformer la transmission à faible latence RDMA/RoCE et le débit du serveur

March 17, 2026

Dernières nouvelles de l'entreprise NVIDIA Mellanox MCX653106A-HDAT en action: transformer la transmission à faible latence RDMA/RoCE et le débit du serveur

À l’ère de l’analyse en temps réel et des charges de travail basées sur l’IA, les centres de données sont soumis à une pression constante pour fournir davantage de données avec une latence plus faible. Un important fournisseur de services cloud a récemment été confronté à un défi crucial : son cluster de stockage distribué était aux prises avec une surcharge du processeur et une instabilité de latence causées par les protocoles TCP/IP traditionnels. Pour faire évoluer efficacement leur infrastructure, ils avaient besoin d'une solution capable de décharger le traitement du réseau et de permettre un véritable contournement du noyau. C'est l'histoire de la façon dont leMCX653106A-HDATest devenu la pierre angulaire de la mise à niveau de leur infrastructure.

Contexte et défi : le goulot d'étranglement TCP/IP

Les charges de travail de calcul haute performance (HPC) et de formation en IA de l'entreprise nécessitaient un mouvement massif de données entre des centaines de nœuds. Cependant, les cartes réseau 25 GbE existantes consommaient jusqu'à 30 % des cœurs de processeur uniquement pour la gestion du trafic réseau. Cela a non seulement augmenté les coûts opérationnels, mais a également introduit des pics de latence imprévisibles lors des pics de charge. L'équipe d'ingénierie a réalisé que pour obtenir les performances souhaitées pour son système de fichiers parallèle, elle devait adopter le RDMA (Remote Direct Memory Access) sur Converged Ethernet (RoCE). La recherche d'un système fiable et performantNVIDIA Mellanox MCX653106A-HDATLa solution a commencé.

Solution et déploiement : intégration de l'adaptateur ConnectX-6

Après une évaluation approfondie du matériel disponible, l'équipe a sélectionné leCarte réseau PCIe adaptateur MCX653106A-HDAT ConnectX. Le déploiement ciblait les nœuds de stockage et de calcul au sein de leur environnement de cloud privé. Tirant parti de la prise en charge native de RoCE par la carte, l'équipe a configuré des structures Ethernet sans perte à l'aide du contrôle de flux prioritaire (PFC) et de la sélection de transmission améliorée (ETS). Le processus d'installation a été rationalisé grâce à la compatibilité PCIe 3.0/4.0 de la carte, permettant une intégration transparente dans les serveurs nouveaux et existants.

LeCarte adaptateur Ethernet MCX653106A-HDATa été configuré pour prendre en charge les liaisons 100 Gb/s, offrant une mise à niveau immédiate de la bande passante. En utilisant les capacités de déchargement matériel de l'architecture ConnectX-6, l'équipe a réussi à déplacer le traitement réseau du processeur vers l'adaptateur lui-même. Pour garantir des performances optimales, les ingénieurs se sont largement référés auSpécifications du MCX653106A-HDATet des guides de réglage pour affiner la taille des tampons et les paramètres de modération des interruptions, créant ainsi une base solide pour le trafic RDMA.

Résultats et avantages : Libérer le véritable potentiel de performance

L'impact du déploiement duMCX653106A-HDATa été immédiat et transformateur. Le tableau suivant illustre les gains de performances observés dans l'environnement de production après la migration vers RDMA/RoCE :

Métrique Avant le déploiement (TCP/IP) Après le déploiement (RoCE v2)
Latence moyenne (IPC) 12 µs 2,1 µs
Utilisation du processeur (réseau) 28% 5%
Débit par nœud 18 Gb/s (effectif) 98 Gb/s (débit de ligne)

Avec leNVIDIA Mellanox MCX653106A-HDATUne fois en place, la solution de stockage distribué de l'entreprise a vu sa latence réduite de six fois. Cela s'est directement traduit par un point de contrôle plus rapide pour les modèles d'IA et des analyses en temps réel plus fluides. Les cœurs de processeur libérés ont été réaffectés aux charges de travail des applications, augmentant ainsi l'efficacité globale du cluster de plus de 20 %. Pour les responsables informatiques, la visibilité fournie par la télémétrie avancée de l'adaptateur a rendu la planification des capacités et l'analyse des goulots d'étranglement beaucoup plus précises.

Regarder vers l’avenir : évolutivité et pérennité

Encouragée par ce succès, l'équipe d'ingénierie envisage désormais d'étendre le déploiement à ses environnements virtualisés. LeCompatible MCX653106A-HDATsa nature avec les principaux hyperviseurs et sa prise en charge de SR-IOV en font un candidat idéal pour les architectures cloud multi-tenant. Alors qu'ils envisagent d'acheter des unités supplémentaires, lesPrix ​​MCX653106A-HDATn’est pas considéré comme un coût, mais comme un investissement stratégique dans la performance. L'équipe explore également lesSolution de carte adaptateur Ethernet MCX653106A-HDATpour les implémentations NVMe-oF, visant à créer une structure de stockage complètement désagrégée.

Cette étude de cas démontre que pour les organisations soucieuses de réduire la latence et d'optimiser le débit du serveur, leMCX653106A-HDATest bien plus qu'une simple carte réseau ; c’est un catalyseur essentiel de l’infrastructure de nouvelle génération. Pour des diagrammes d'architecture détaillés et pour vérifier votre propre configuration système requise, le site officielFiche technique MCX653106A-HDATfournit toute la profondeur technique nécessaire.