NVIDIA DGX GH200 : 256 puces Grace Hopper Superchip (CPU et GPU), 144 To de mémoire et 1 exaflop* en FP8

NVIDIA DGX GH200 : 256 puces Grace Hopper Superchip (CPU et GPU), 144 To de mémoire et 1 exaflop* en FP8

Pas assez cher mon fils…

Avatar de l'auteur
Sébastien Gavois

Publié dans

Sciences et espace

30/05/2023 6 minutes
19

NVIDIA DGX GH200 : 256 puces Grace Hopper Superchip (CPU et GPU), 144 To de mémoire et 1 exaflop* en FP8

Après le DGX A100 annoncé fin 2020, NVIDIA revient cette année avec le DGX GH200. Il s’agit d’un supercalculateur comprenant 256 puces Grace Hopper Superchip (GH200), avec une puissance de calcul pouvant atteindre 1 exaflop…dans certaines conditions. 

Cela fait maintenant deux ans que NVIDIA a annoncé son CPU Grace pour les datacenters. L’année dernière, durant la GTC, le fabricant a donné de plus amples informations. Rebelote en mars de cette année, avec l’annonce des premiers échantillons.

« Pleine production » pour Grace Hopper Superchip

Cette fois-ci, Grace entre dans la cour des grands avec l’annonce du passage à la « pleine production » des puces Grace Hopper Superchip comprenant une partie CPU Grace avec un GPU maison H100 Hopper, successeur du A100. Avec cette puce, « les fabricants du monde entier proposeront bientôt les infrastructures d’accélération dont les entreprises ont besoin pour créer et déployer des applications d’IA génératives ». Les premiers systèmes sont attendus pour la fin de l’année. 

NVIDIA en profite pour présenter son propre supercalculateur dédié à l’intelligence artificielle : le DGX GH200 « AI Supercomputer ». Il exploite pas moins de 256 puces Grace Hopper Superchip et prend la suite du DGX A100. 

NVIDIA veut donner le coup de Grace 

Le CPU Grace Superchip de NVIDIA est spécialement pensé pour les datacenters, notamment ceux traitant des calculs liés à l’intelligence artificielle. Il comprend 72 cœurs ARM Neoverse v2, peut gérer jusqu’à 480 Go de mémoire LPDDR5X – directement intégrée avec le CPU – avec une bande passante maximum de 512 Go/s. Il propose aussi jusqu’à quatre lignes PCIe x16 gen 5. 

De son côté, le GPU Hopper H100 comprend 8 GPC (GPU Processing Cluster), 72 TPC (Texture Processing Cluster) et 144 SM (Streaming Multiprocessors). Chaque SM dispose de quatre Tensor Cores de 4e génération, soit 576 par GPU. Il peut gérer jusqu’à 96 Go de mémoire HBM3, avec une bande passante de 4 To/s.

Pour rappel, les autres variantes du GPU H100 – SXM et PCIe – disposaient d’un maximum de 80 Go de mémoire vive ; seule la H100 NVL grimpait jusqu’à 94 Go. 

NVIDIA Grace Hopper

Des flops comme s’il en pleuvait… 

Selon NVIDIA, son GPU H100 a les performances suivantes :

  • FP64 : 34 teraflops
  • FP32 : 67 teraflops
  • Tensor Core FP64 : 67 teraflops
  • Tensor Core TF32 : 989 teraflops avec dispersion structurelle, 494 teraflops sans dispersion structurelle
  • Tensor Core FP16 : 1 979 teraflops avec dispersion structurelle, 989 teraflops sans dispersion structurelle
  • Tensor Core FP8 : 3 958 teraflops avec dispersion structurelle, 1979 teraflops sans dispersion structurelle

C’est la combinaison entre le CPU Grace et le GPU Hopper qui donne ainsi naissance à Grace Hopper Superchip (ou GH200). Un livre blanc sur cette architecture est disponible par ici.

Le lien NVIDIA NVLink-C2C CPU-to-GPU a pour sa part une bande passante bidirectionnelle de 900 Go/s (450 Go/s dans chaque sens). C’est, selon le fabricant, « sept fois plus élevé que les lignes PCIe 5.0 couramment utilisées dans ces systèmes ». 

NVIDIA Grace Hopper

… mais attention à la « dispersion structurelle »

Avant de passer à la station DGX, revenons sur la « dispersion structurelle » (sparsity en anglais) qui permet de doubler les performances en FP8, FP16 et TF32. NVIDIA explique de quoi il s’agit (de plus amples détails sont disponibles ici) : 

« Les réseaux modernes d’IA, qui gagnent sans cesse en taille et en complexité, se chiffrent aujourd’hui en millions ou milliards de paramètres. Bon nombre de ces paramètres ne sont pas requis pour réaliser des prédictions et des inférences précises, et il est possible d’en convertir certains en chaînes de zéros pour "disperser" les modèles sans en compromettre la précision.

Les cœurs Tensor fournissent des performances jusqu’à deux fois plus élevées avec les modèles dispersés. Cette fonctionnalité de dispersion bénéficie avant tout aux inférences d’IA, mais il est également possible de l’utiliser pour améliorer les performances d’entraînement des modèles. »

Et voici le DGX GH200 AI Supercomputer avec 256 Grace Hopper Superchip

On peut maintenant passer au DGX GH200 AI Supercomputer, qui est en fait un supercalculateur avec un cluster de 256 GH200 – soit 256 CPU Grace (et donc 18 432 cœurs Arm, vous suivez ?) et 256 GPU H100. Afin de permettre à tout ce petit monde de communiquer, le DGX GH200 utilise le NVIDIA NVLink Switch System, « une nouvelle interconnexion qui permet à tous les GPU d'un système DGX GH200 de fonctionner de concert comme un seul GPU ».  La bande passante de ce NVLink de 4e génération est de 900 Go/s. 

« Chaque GPU Hopper connecté à NVLink peut accéder à toute la mémoire HBM3 et LPDDR5X de tous les Superchips du réseau, soit jusqu'à 150 To de mémoire adressable par GPU », explique NVIDIA. Les 150 To comprennent à la fois les 480 Go par CPU et les 96 Go par GPU, soit un total de 256x (480+96). Pour être précis, la quantité de mémoire disponible est donc de 144 To. C’est « près de 500x plus de mémoire que la génération précédente NVIDIA DGX A100, qui a été introduite en 2020 », rappelle NVIDIA. 

NVIDIA DGX GH200

Jusqu’à « 1 exaflop* » en FP8, pour le prix on repassera

Le constructeur annonce des performances de 1 exaflop en FP8 pour sa station DGX GH200. Là encore, il s’agit d’une simple multiplication. Un GPU Hopper est donné pour 3 958 teraflops en FP8, le supercalculateur arrive donc en théorie à 1 013 248 teraflops (256x 3 958), soit un peu plus de 1 000 petaflops ou encore 1 exaflop, en FP8 uniquement. Mais attention, cet exaflop s’entend « avec dispersion structurelle ». Sans, on divise les performances par deux. 

Quoi qu’il en soit, les supercalculateurs DGX GH200 « devraient être disponibles d'ici à la fin de l'année », selon NVIDIA. Pas de prix indiqué, mais on devrait atteindre des sommets. À titre de comparaison, la plateforme HGX H100 avec huit GPU H100 est à plus de 200 000 euros. Le DGX GH200 dispose de 32 fois plus de GPU… 

19

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

« Pleine production » pour Grace Hopper Superchip

NVIDIA veut donner le coup de Grace 

Des flops comme s’il en pleuvait… 

… mais attention à la « dispersion structurelle »

Et voici le DGX GH200 AI Supercomputer avec 256 Grace Hopper Superchip

Jusqu’à « 1 exaflop* » en FP8, pour le prix on repassera

Commentaires (19)


Et ça consomme combien ce truc ???? :eeek:


Bon, faudrait aussi parler du SDK… Il respecte l’ISO/CEI 1989:2002 ?


En terme de SDK, je pense que pour utiliser à pleine capacité le




  • CPU Nvidia Grace Superchip

  • GPU Nvidia H100 Hopper

  • lien CPU-GPU Nvidia NVLink-C2C

  • réseau Nvidia NVLink Switch System



Il faut utiliser le compilateur Nvidia NVHPC !


AhLeBatord

En terme de SDK, je pense que pour utiliser à pleine capacité le




  • CPU Nvidia Grace Superchip

  • GPU Nvidia H100 Hopper

  • lien CPU-GPU Nvidia NVLink-C2C

  • réseau Nvidia NVLink Switch System



Il faut utiliser le compilateur Nvidia NVHPC !


Il faut lire le standard en question avant de répondre…


Comme toujours, et avec un petite billet on peut en coller quelqu’uns ensemble pour avoir un vrai Exaflop en FP16, 32 voir 64.
Ca fera beaucoup moins de machines pour ça, mais par contre ça va coûter bien cher.



Y’a déjà des projets prévus en HPC avec ces machins ? Mémoire de poisson rouge…


Pour le prix, ça devrait être entre 5 et 20 millions le supercalculateur ?
La fourchette est aussi large car je vous met au défi de trouver le prix d’un H100 sortis depuis quelques semaines/mois… Sans compter que là c’est un form factor encore différent des trois déjà dispo (PCIe, SXM et NVL).


Les prix ont gonflés de manière démesurée entre deux générations. On passe de la A100 80Go PCIe aux alentours de 10.000€ à une H100 80Go PCIe entre 30.000 et 40.000€.
Spoiler: je cherche encore l’augmentation de la performance pour justifier ce prix par rapport à une A100 de 2020 (domaine d’application HPC CFD)…


nepsus

Les prix ont gonflés de manière démesurée entre deux générations. On passe de la A100 80Go PCIe aux alentours de 10.000€ à une H100 80Go PCIe entre 30.000 et 40.000€.
Spoiler: je cherche encore l’augmentation de la performance pour justifier ce prix par rapport à une A100 de 2020 (domaine d’application HPC CFD)…

Regarde sur eBay, on trouve pas de A100 80GB en dessous de 15k :-(. Après NVIDIA a bien compris le système des prix “enterprise” « souples » (i.e à la tête du client) d’où ma fourchette assez élevée.


Aissen

Regarde sur eBay, on trouve pas de A100 80GB en dessous de 15k :-(. Après NVIDIA a bien compris le système des prix “enterprise” « souples » (i.e à la tête du client) d’où ma fourchette assez élevée.


Comme toutes les boites qui vendent de cette manière.



Les serveurs chez Dell quand je bossais comme admin c’était tarif public, tarif en volume, tarif en volume avec garanties gold/platinium et en terme de prix c’était pas la même du tout.



nVidia ça doit être la même, si tu prends un petit bout t’as un tafi, si tu prends plein de petit bout t’as un autre tarif, si tu prends le package t’as encore un autre tarif.


Mais est-ce qu’il fait tourner Crysis ?


Ah, dire que dans 100 ans ou moins, ce sera la puissance d’un smartphone :transpi:



ça se tente un petit 3dMark juste pour rire quand même :o


Pile ce que j’attendais pour mon nouveau PC.



Cqoicebordel a dit:


Mais est-ce qu’il fait tourner Crysis ?




Ou plus costaud, comme le Démineur…



les fabricants du monde entier proposeront bientôt les infrastructures d’accélération dont les entreprises ont besoin pour créer et déployer des applications d’IA génératives




de l’IA, encore plus d’IA, de l’IA partout !!!



Même dans mon futur pov petit CPU de bureautique…



Intel will add the VPU tech to all models of its forthcoming Meteor Lake client CPUs.


Y’en a probablement déjà dans ton téléphone :transpi:


the_Grim_Reaper

Y’en a probablement déjà dans ton téléphone :transpi:


( localhost jette son telephone et le pietine sauvagement )
:transpi:


barlav

( localhost jette son telephone et le pietine sauvagement )
:transpi:

ainsi que sa prochaine voiture :transpi: