Après le DGX A100 annoncé fin 2020, NVIDIA revient cette année avec le DGX GH200. Il s’agit d’un supercalculateur comprenant 256 puces Grace Hopper Superchip (GH200), avec une puissance de calcul pouvant atteindre 1 exaflop…dans certaines conditions.
Cela fait maintenant deux ans que NVIDIA a annoncé son CPU Grace pour les datacenters. L’année dernière, durant la GTC, le fabricant a donné de plus amples informations. Rebelote en mars de cette année, avec l’annonce des premiers échantillons.
« Pleine production » pour Grace Hopper Superchip
Cette fois-ci, Grace entre dans la cour des grands avec l’annonce du passage à la « pleine production » des puces Grace Hopper Superchip comprenant une partie CPU Grace avec un GPU maison H100 Hopper, successeur du A100. Avec cette puce, « les fabricants du monde entier proposeront bientôt les infrastructures d’accélération dont les entreprises ont besoin pour créer et déployer des applications d’IA génératives ». Les premiers systèmes sont attendus pour la fin de l’année.
NVIDIA en profite pour présenter son propre supercalculateur dédié à l’intelligence artificielle : le DGX GH200 « AI Supercomputer ». Il exploite pas moins de 256 puces Grace Hopper Superchip et prend la suite du DGX A100.
- Grace : NVIDIA lance son premier CPU pour serveur, des SoC Mediatek avec GeForce RTX
- NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS
NVIDIA veut donner le coup de Grace
Le CPU Grace Superchip de NVIDIA est spécialement pensé pour les datacenters, notamment ceux traitant des calculs liés à l’intelligence artificielle. Il comprend 72 cœurs ARM Neoverse v2, peut gérer jusqu’à 480 Go de mémoire LPDDR5X – directement intégrée avec le CPU – avec une bande passante maximum de 512 Go/s. Il propose aussi jusqu’à quatre lignes PCIe x16 gen 5.
De son côté, le GPU Hopper H100 comprend 8 GPC (GPU Processing Cluster), 72 TPC (Texture Processing Cluster) et 144 SM (Streaming Multiprocessors). Chaque SM dispose de quatre Tensor Cores de 4e génération, soit 576 par GPU. Il peut gérer jusqu’à 96 Go de mémoire HBM3, avec une bande passante de 4 To/s.
Pour rappel, les autres variantes du GPU H100 – SXM et PCIe – disposaient d’un maximum de 80 Go de mémoire vive ; seule la H100 NVL grimpait jusqu’à 94 Go.

Des flops comme s’il en pleuvait…
Selon NVIDIA, son GPU H100 a les performances suivantes :
- FP64 : 34 teraflops
- FP32 : 67 teraflops
- Tensor Core FP64 : 67 teraflops
- Tensor Core TF32 : 989 teraflops avec dispersion structurelle, 494 teraflops sans dispersion structurelle
- Tensor Core FP16 : 1 979 teraflops avec dispersion structurelle, 989 teraflops sans dispersion structurelle
- Tensor Core FP8 : 3 958 teraflops avec dispersion structurelle, 1979 teraflops sans dispersion structurelle
C’est la combinaison entre le CPU Grace et le GPU Hopper qui donne ainsi naissance à Grace Hopper Superchip (ou GH200). Un livre blanc sur cette architecture est disponible par ici.
Le lien NVIDIA NVLink-C2C CPU-to-GPU a pour sa part une bande passante bidirectionnelle de 900 Go/s (450 Go/s dans chaque sens). C’est, selon le fabricant, « sept fois plus élevé que les lignes PCIe 5.0 couramment utilisées dans ces systèmes ».

… mais attention à la « dispersion structurelle »
Avant de passer à la station DGX, revenons sur la « dispersion structurelle » (sparsity en anglais) qui permet de doubler les performances en FP8, FP16 et TF32. NVIDIA explique de quoi il s’agit (de plus amples détails sont disponibles ici) :
« Les réseaux modernes d’IA, qui gagnent sans cesse en taille et en complexité, se chiffrent aujourd’hui en millions ou milliards de paramètres. Bon nombre de ces paramètres ne sont pas requis pour réaliser des prédictions et des inférences précises, et il est possible d’en convertir certains en chaînes de zéros pour "disperser" les modèles sans en compromettre la précision.
Les cœurs Tensor fournissent des performances jusqu’à deux fois plus élevées avec les modèles dispersés. Cette fonctionnalité de dispersion bénéficie avant tout aux inférences d’IA, mais il est également possible de l’utiliser pour améliorer les performances d’entraînement des modèles. »
Et voici le DGX GH200 AI Supercomputer avec 256 Grace Hopper Superchip
On peut maintenant passer au DGX GH200 AI Supercomputer, qui est en fait un supercalculateur avec un cluster de 256 GH200 – soit 256 CPU Grace (et donc 18 432 cœurs Arm, vous suivez ?) et 256 GPU H100. Afin de permettre à tout ce petit monde de communiquer, le DGX GH200 utilise le NVIDIA NVLink Switch System, « une nouvelle interconnexion qui permet à tous les GPU d'un système DGX GH200 de fonctionner de concert comme un seul GPU ». La bande passante de ce NVLink de 4e génération est de 900 Go/s.
« Chaque GPU Hopper connecté à NVLink peut accéder à toute la mémoire HBM3 et LPDDR5X de tous les Superchips du réseau, soit jusqu'à 150 To de mémoire adressable par GPU », explique NVIDIA. Les 150 To comprennent à la fois les 480 Go par CPU et les 96 Go par GPU, soit un total de 256x (480+96). Pour être précis, la quantité de mémoire disponible est donc de 144 To. C’est « près de 500x plus de mémoire que la génération précédente NVIDIA DGX A100, qui a été introduite en 2020 », rappelle NVIDIA.

Jusqu’à « 1 exaflop* » en FP8, pour le prix on repassera
Le constructeur annonce des performances de 1 exaflop en FP8 pour sa station DGX GH200. Là encore, il s’agit d’une simple multiplication. Un GPU Hopper est donné pour 3 958 teraflops en FP8, le supercalculateur arrive donc en théorie à 1 013 248 teraflops (256x 3 958), soit un peu plus de 1 000 petaflops ou encore 1 exaflop, en FP8 uniquement. Mais attention, cet exaflop s’entend « avec dispersion structurelle ». Sans, on divise les performances par deux.
Quoi qu’il en soit, les supercalculateurs DGX GH200 « devraient être disponibles d'ici à la fin de l'année », selon NVIDIA. Pas de prix indiqué, mais on devrait atteindre des sommets. À titre de comparaison, la plateforme HGX H100 avec huit GPU H100 est à plus de 200 000 euros. Le DGX GH200 dispose de 32 fois plus de GPU…