NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Avec un zeste de Confidential Computing
NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Comme prévu, la conférence d'ouverture de la GTC 2022 a été l'occasion pour Jen Hsun Huang de dévoiler sa prochaine architecture Hopper (en hommage à Grace Hopper). La puce H100 est attendue pour le 3e trimestre et annonce déjà des chiffres qui font tourner la tête... et de nombreuses déclinaisons.

Avec Ampere et l'A100, NVIDIA avait dévoilé une puce très performante, introduisant de nouveaux concepts pour l'entreprise comme Multi Instances GPU (MIG) pour la virtualisation, une meilleure gestion des matrices creuses, etc. Mais en deux ans, le constructeur commençait à se faire distancer, notamment sur la puissance de calcul brute.

Il était donc temps de passer la seconde et de reprendre un temps d'avance, d'autant qu'AMD ne tardera pas à revenir au score avec CDNA3, et qu'Intel va commencer à mettre la pression avec ses solutions Xe visant les supercalculateurs. Hopper et sa première incarnation, H100, ne font donc pas dans le détail.

Performances x3, TDP x1,75

La puce compte 80 milliards de transistors (54 milliards pour A100) gravés avec le process 4N de TSMC. On reste ainsi sur une surface similaire (814 mm² contre 826 mm²). Elle passe au PCIe 5.0 (notamment pour NVLink 4th Gen qui grimpe à 900 Go/s), à 80 Go de HBM3 (3 To/s) et annonce une puissance de calcul triplée : 60 TFLOPS (FP32 et FP64 Tensor), 30 TFLOPS (FP64) avec gestion du FP8 désormais.

Cela se retrouve côté TDP avec pas moins de 700 watts par module SXM contre 400 watts précédemment. L'efficacité énergétique est en hausse, avec 0,0857 TFLOPS (FP32) par watt contre 0,0488 précédemment (+75,6 %). Mais comme souvent, les plus gros gains sont à chercher ailleurs, via de nouvelles fonctionnalités.

Nouveaux accélérateurs, instructions et fonctionnalités

Tout d'abord, on compte un Transformer Engine destiné à tous les modèles de type Transformer (GPT-2/3, BERT, etc.) qui sont en train de gagner du terrain dans le monde de l'IA, mais nécessitent des quantités énormes de données et parfois plusieurs mois d'entrainement. L'idée est donc de réduire ces délais sans perte de précision. 

NVIDIA dit ainsi pouvoir passer de 7 jours à 20 heures sur l'entrainement du modèle Mixture of Experts (MoE) sur un ensemble de 8 000 GPU... ce qui donne une idée de l'ampleur des calculs réalisés. Les gains seraient également élevés en inférence (jusqu'à x16/x30 et sur le calcul HPC (x6/x7) lorsque les possibilités de H100 sont exploitées.

Cela vient bien entendu des liens entre GPU plus rapides, mais également de la présence des instructions FP8 ou de DPX qui doit permettre l'accélération de la programmation dynamique et certains algorithmes utilisés notamment dans le domaine scientifique. Les sessions techniques à venir devraient permettre d'en savoir plus.

Autre grande nouveauté de Hopper : MIG passe en seconde version avec une gestion native du Confidential Computing. Comprendre que l'on aura droit à une isolation renforcée et un chiffrement des échanges entre les partitions du GPU et de sa mémoire, mais NVIDIA dit également embarquer le CPU (lorsqu'il le permet) dans cette évolution, ainsi que les échanges entre les deux (via la mémoire ou le PCIe notamment).

Si vous voulez en savoir plus, un billet de blog technique vient d'être publié.

NVIDIA H100 DGXNVIDIA H100 CNX

H100 sera proposé sous différentes formes

La puce H100 sera proposée à partir du troisième trimestre par les partenaires de NVIDIA, ainsi que sous la forme de DGX (8x H100) et de SuperPOD (32x DGX). L'interconnexion est d'ailleurs revue avec la mise en place d'un NVLink Switch capable de relier jusqu'à 256 GPU, à 70,4 To/s pour une puissance de calcul de 192 TFLOPS.

Le supercalculateur Eos sera d'ailleurs le premier à profiter de ces nouveautés d'ici quelques mois. Propre à NVIDIA et utilisé pour ses besoins en termes de calcul, il se compose de 576 DGX H100, 360 NVLink Switch et 500 switchs Infiniband (Quantum-2). Il atteint ainsi 275 PFLOPS (FP64) et 9 EFLOPS (FP16). 

D'autres déclinaisons sont bien entendu attendues avec le temps. NVIDIA a déjà évoqué une carte PCIe avec NVLink, mais aussi la H100 CNX basée sur ConnectX-7 (400 Gb/s) et un GPU Hopper proposés sur une même carte PCIe. Cela permettra  d'effectuer des calculs depuis les flux réseau directement sur le GPU sans avoir à passer par le CPU.

Aucun tarif n'a pour le moment été dévoilé.

Notre dossier sur la GTC 2022 de NVIDIA :

David Legrand est responsable de l'évaluation Hardware chez Clever Cloud. Dans le cadre de la publication de ses articles dans nos colonnes, il s'est engagé à suivre notre charte d'engagements déontologiques.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !