NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Avec un zeste de Confidential Computing

Avatar de l'auteur
David Legrand

Publié dans

Sciences et espace

22/03/2022 4 minutes
11

NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Comme prévu, la conférence d'ouverture de la GTC 2022 a été l'occasion pour Jen Hsun Huang de dévoiler sa prochaine architecture Hopper (en hommage à Grace Hopper). La puce H100 est attendue pour le 3e trimestre et annonce déjà des chiffres qui font tourner la tête... et de nombreuses déclinaisons.

Avec Ampere et l'A100, NVIDIA avait dévoilé une puce très performante, introduisant de nouveaux concepts pour l'entreprise comme Multi Instances GPU (MIG) pour la virtualisation, une meilleure gestion des matrices creuses, etc. Mais en deux ans, le constructeur commençait à se faire distancer, notamment sur la puissance de calcul brute.

Il était donc temps de passer la seconde et de reprendre un temps d'avance, d'autant qu'AMD ne tardera pas à revenir au score avec CDNA3, et qu'Intel va commencer à mettre la pression avec ses solutions Xe visant les supercalculateurs. Hopper et sa première incarnation, H100, ne font donc pas dans le détail.

Performances x3, TDP x1,75

La puce compte 80 milliards de transistors (54 milliards pour A100) gravés avec le process 4N de TSMC. On reste ainsi sur une surface similaire (814 mm² contre 826 mm²). Elle passe au PCIe 5.0 (notamment pour NVLink 4th Gen qui grimpe à 900 Go/s), à 80 Go de HBM3 (3 To/s) et annonce une puissance de calcul triplée : 60 TFLOPS (FP32 et FP64 Tensor), 30 TFLOPS (FP64) avec gestion du FP8 désormais.

Cela se retrouve côté TDP avec pas moins de 700 watts par module SXM contre 400 watts précédemment. L'efficacité énergétique est en hausse, avec 0,0857 TFLOPS (FP32) par watt contre 0,0488 précédemment (+75,6 %). Mais comme souvent, les plus gros gains sont à chercher ailleurs, via de nouvelles fonctionnalités.

Nouveaux accélérateurs, instructions et fonctionnalités

Tout d'abord, on compte un Transformer Engine destiné à tous les modèles de type Transformer (GPT-2/3, BERT, etc.) qui sont en train de gagner du terrain dans le monde de l'IA, mais nécessitent des quantités énormes de données et parfois plusieurs mois d'entrainement. L'idée est donc de réduire ces délais sans perte de précision. 

NVIDIA dit ainsi pouvoir passer de 7 jours à 20 heures sur l'entrainement du modèle Mixture of Experts (MoE) sur un ensemble de 8 000 GPU... ce qui donne une idée de l'ampleur des calculs réalisés. Les gains seraient également élevés en inférence (jusqu'à x16/x30 et sur le calcul HPC (x6/x7) lorsque les possibilités de H100 sont exploitées.

Cela vient bien entendu des liens entre GPU plus rapides, mais également de la présence des instructions FP8 ou de DPX qui doit permettre l'accélération de la programmation dynamique et certains algorithmes utilisés notamment dans le domaine scientifique. Les sessions techniques à venir devraient permettre d'en savoir plus.

Autre grande nouveauté de Hopper : MIG passe en seconde version avec une gestion native du Confidential Computing. Comprendre que l'on aura droit à une isolation renforcée et un chiffrement des échanges entre les partitions du GPU et de sa mémoire, mais NVIDIA dit également embarquer le CPU (lorsqu'il le permet) dans cette évolution, ainsi que les échanges entre les deux (via la mémoire ou le PCIe notamment).

Si vous voulez en savoir plus, un billet de blog technique vient d'être publié.

NVIDIA H100 DGXNVIDIA H100 CNX

H100 sera proposé sous différentes formes

La puce H100 sera proposée à partir du troisième trimestre par les partenaires de NVIDIA, ainsi que sous la forme de DGX (8x H100) et de SuperPOD (32x DGX). L'interconnexion est d'ailleurs revue avec la mise en place d'un NVLink Switch capable de relier jusqu'à 256 GPU, à 70,4 To/s pour une puissance de calcul de 192 TFLOPS.

Le supercalculateur Eos sera d'ailleurs le premier à profiter de ces nouveautés d'ici quelques mois. Propre à NVIDIA et utilisé pour ses besoins en termes de calcul, il se compose de 576 DGX H100, 360 NVLink Switch et 500 switchs Infiniband (Quantum-2). Il atteint ainsi 275 PFLOPS (FP64) et 9 EFLOPS (FP16). 

D'autres déclinaisons sont bien entendu attendues avec le temps. NVIDIA a déjà évoqué une carte PCIe avec NVLink, mais aussi la H100 CNX basée sur ConnectX-7 (400 Gb/s) et un GPU Hopper proposés sur une même carte PCIe. Cela permettra  d'effectuer des calculs depuis les flux réseau directement sur le GPU sans avoir à passer par le CPU.

Aucun tarif n'a pour le moment été dévoilé.

Notre dossier sur la GTC 2022 de NVIDIA :

Écrit par David Legrand

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Performances x3, TDP x1,75

Nouveaux accélérateurs, instructions et fonctionnalités

H100 sera proposé sous différentes formes

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (11)


“Aucun tarif n’a pour le moment été dévoilé.”




Tarif : Cher€



:D



N’empêche, ma 3080 n’est à genoux que sur Cyberpunk 2077 (jeu assez mal opti), et les tarifs des CG 4000 seront sûrement énorme.


Le perf/€ des RTX 4000 sera > à celui des RTX 3000 ;) Après ici on parle de Hopper qui est une solution pour DC, rien à voir avec les GeForce qui arrivent.


David_L

Le perf/€ des RTX 4000 sera > à celui des RTX 3000 ;) Après ici on parle de Hopper qui est une solution pour DC, rien à voir avec les GeForce qui arrivent.


Ah, mais, Nvidia ne sortent pas d’abord l’architecture sur de l’embarqué, puis après sur PC?


dylem29

Ah, mais, Nvidia ne sortent pas d’abord l’architecture sur de l’embarqué, puis après sur PC?


ll n’y a pas de règle, et il faut distinguer les lancements et les annonces. Par exemple Orin était du Ampere pour véhicule autonome avant l’heure, mais n’est sorti dans des produits que bien après l’A100 ou les RTX. Sur ces marchés de long terme les annonces se font très en avance. Sur Ampere A100 a été annoncé d’abord, les RTX 3000 ensuite.



Ici ce sera aussi le cas sans doute. Mais vu les nouveautés annoncées dans Hopper qui visent des accélération très HPC/Supercalculateur, il y a de grandes chances que les RTX 4000 soient très différentes. Encore plus que pour la série Ampere (d’où un nom de code peut être différent)


David_L

ll n’y a pas de règle, et il faut distinguer les lancements et les annonces. Par exemple Orin était du Ampere pour véhicule autonome avant l’heure, mais n’est sorti dans des produits que bien après l’A100 ou les RTX. Sur ces marchés de long terme les annonces se font très en avance. Sur Ampere A100 a été annoncé d’abord, les RTX 3000 ensuite.



Ici ce sera aussi le cas sans doute. Mais vu les nouveautés annoncées dans Hopper qui visent des accélération très HPC/Supercalculateur, il y a de grandes chances que les RTX 4000 soient très différentes. Encore plus que pour la série Ampere (d’où un nom de code peut être différent)


Dac, merci !


Très intéressant de découvrir les détails de ce marché de niche. En plus article agréable à lire.


30 TFLOPS en FP64, ça va poutrer nos V100 et leurs 7,4 TFLOPS ! On avait sauté la génération Ampere car elle n’apportait pas grand chose en FP64 par rapport à la génération Volta. J’espère qu’ils sortiront aussi une version Quadro car on n’a pas pris des serveurs SXM.


Tu auras une version PCIe. Mais “Quadro” = graphique et station de travail, dérivé de GeForce, donc sans la même performance FP64


David_L

Tu auras une version PCIe. Mais “Quadro” = graphique et station de travail, dérivé de GeForce, donc sans la même performance FP64


Pas forcément : tu peux passer les cartes Quadro en mode TCC (compute only), si tu utilises une autre carte pour gérer l’affichage, et dans ce cas tu récupères 100% de la puissance de calcul brute.



Après sur les specs de base des version PCIe vs. SXM2, sur la génération Volta il y avait effectivement un écart de performance de 10% (7 TFLOPS vs. 7,8 TFLOPS en FP64).



La génération Ampere faisait disparaître cet écart avec la A100 : 9,7 TFLOPS dans les 2 versions.



J’ai de bons espoirs pour la génération Hopper. Au pire, si un ratio revient et qu’il est similaire, passer de 30 à 27 TFLOPs mais faire un bond de 7 à 27 TFLOPS à prix équivalent ça sera déjà monstrueux.


Nozalys

Pas forcément : tu peux passer les cartes Quadro en mode TCC (compute only), si tu utilises une autre carte pour gérer l’affichage, et dans ce cas tu récupères 100% de la puissance de calcul brute.



Après sur les specs de base des version PCIe vs. SXM2, sur la génération Volta il y avait effectivement un écart de performance de 10% (7 TFLOPS vs. 7,8 TFLOPS en FP64).



La génération Ampere faisait disparaître cet écart avec la A100 : 9,7 TFLOPS dans les 2 versions.



J’ai de bons espoirs pour la génération Hopper. Au pire, si un ratio revient et qu’il est similaire, passer de 30 à 27 TFLOPs mais faire un bond de 7 à 27 TFLOPS à prix équivalent ça sera déjà monstrueux.


Ce n’est pas la même architecture et pas le même but. Une option dans les pilotes n’y change rien ;) A100 et ses dérivés ont des spécificités que n’ont pas les gammes RTX A (ex-Quadro), notamment sur le FP64 et inversement. Hopper est du même acabit.


David_L

Ce n’est pas la même architecture et pas le même but. Une option dans les pilotes n’y change rien ;) A100 et ses dérivés ont des spécificités que n’ont pas les gammes RTX A (ex-Quadro), notamment sur le FP64 et inversement. Hopper est du même acabit.


Je n’ai pas compris ta réponse : quand tu parles d’architecture différente, tu veux dire que ce n’est pas le même GPU qu’il y a dans une V100 SXM2 et dans une Quadro GV100 PCIe ? Ce n’est pas juste le form-factor et le type d’interconnexion inter-GPU qui changent ?