NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Avec un zeste de Confidential Computing

Publié dans

22/03/2022 4 minutes

NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Comme prévu, la conférence d'ouverture de la GTC 2022 a été l'occasion pour Jen Hsun Huang de dévoiler sa prochaine architecture Hopper (en hommage à Grace Hopper). La puce H100 est attendue pour le 3e trimestre et annonce déjà des chiffres qui font tourner la tête... et de nombreuses déclinaisons.

Avec Ampere et l'A100, NVIDIA avait dévoilé une puce très performante, introduisant de nouveaux concepts pour l'entreprise comme Multi Instances GPU (MIG) pour la virtualisation, une meilleure gestion des matrices creuses, etc. Mais en deux ans, le constructeur commençait à se faire distancer, notamment sur la puissance de calcul brute.

Il était donc temps de passer la seconde et de reprendre un temps d'avance, d'autant qu'AMD ne tardera pas à revenir au score avec CDNA3, et qu'Intel va commencer à mettre la pression avec ses solutions Xe visant les supercalculateurs. Hopper et sa première incarnation, H100, ne font donc pas dans le détail.

Performances x3, TDP x1,75

La puce compte 80 milliards de transistors (54 milliards pour A100) gravés avec le process 4N de TSMC. On reste ainsi sur une surface similaire (814 mm² contre 826 mm²). Elle passe au PCIe 5.0 (notamment pour NVLink 4th Gen qui grimpe à 900 Go/s), à 80 Go de HBM3 (3 To/s) et annonce une puissance de calcul triplée : 60 TFLOPS (FP32 et FP64 Tensor), 30 TFLOPS (FP64) avec gestion du FP8 désormais.

Cela se retrouve côté TDP avec pas moins de 700 watts par module SXM contre 400 watts précédemment. L'efficacité énergétique est en hausse, avec 0,0857 TFLOPS (FP32) par watt contre 0,0488 précédemment (+75,6 %). Mais comme souvent, les plus gros gains sont à chercher ailleurs, via de nouvelles fonctionnalités.

Nouveaux accélérateurs, instructions et fonctionnalités

Tout d'abord, on compte un Transformer Engine destiné à tous les modèles de type Transformer (GPT-2/3, BERT, etc.) qui sont en train de gagner du terrain dans le monde de l'IA, mais nécessitent des quantités énormes de données et parfois plusieurs mois d'entrainement. L'idée est donc de réduire ces délais sans perte de précision.

NVIDIA dit ainsi pouvoir passer de 7 jours à 20 heures sur l'entrainement du modèle Mixture of Experts (MoE) sur un ensemble de 8 000 GPU... ce qui donne une idée de l'ampleur des calculs réalisés. Les gains seraient également élevés en inférence (jusqu'à x16/x30 et sur le calcul HPC (x6/x7) lorsque les possibilités de H100 sont exploitées.

Cela vient bien entendu des liens entre GPU plus rapides, mais également de la présence des instructions FP8 ou de DPX qui doit permettre l'accélération de la programmation dynamique et certains algorithmes utilisés notamment dans le domaine scientifique. Les sessions techniques à venir devraient permettre d'en savoir plus.

Autre grande nouveauté de Hopper : MIG passe en seconde version avec une gestion native du Confidential Computing. Comprendre que l'on aura droit à une isolation renforcée et un chiffrement des échanges entre les partitions du GPU et de sa mémoire, mais NVIDIA dit également embarquer le CPU (lorsqu'il le permet) dans cette évolution, ainsi que les échanges entre les deux (via la mémoire ou le PCIe notamment).

Si vous voulez en savoir plus, un billet de blog technique vient d'être publié.

H100 sera proposé sous différentes formes

La puce H100 sera proposée à partir du troisième trimestre par les partenaires de NVIDIA, ainsi que sous la forme de DGX (8x H100) et de SuperPOD (32x DGX). L'interconnexion est d'ailleurs revue avec la mise en place d'un NVLink Switch capable de relier jusqu'à 256 GPU, à 70,4 To/s pour une puissance de calcul de 192 TFLOPS.

Le supercalculateur Eos sera d'ailleurs le premier à profiter de ces nouveautés d'ici quelques mois. Propre à NVIDIA et utilisé pour ses besoins en termes de calcul, il se compose de 576 DGX H100, 360 NVLink Switch et 500 switchs Infiniband (Quantum-2). Il atteint ainsi 275 PFLOPS (FP64) et 9 EFLOPS (FP16).

D'autres déclinaisons sont bien entendu attendues avec le temps. NVIDIA a déjà évoqué une carte PCIe avec NVLink, mais aussi la H100 CNX basée sur ConnectX-7 (400 Gb/s) et un GPU Hopper proposés sur une même carte PCIe. Cela permettra d'effectuer des calculs depuis les flux réseau directement sur le GPU sans avoir à passer par le CPU.

Aucun tarif n'a pour le moment été dévoilé.

Notre dossier sur la GTC 2022 de NVIDIA :

NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS (FP64)
GTX 2022 : nouvelles RTX, Grace, DPU, 800 Gb/s, Omniverse Cloud et OVX

Commentaires (11)

dylem29 Abonné

Le 22/03/2022 à 16h 29

“Aucun tarif n’a pour le moment été dévoilé.”

Tarif : Cher€

N’empêche, ma 3080 n’est à genoux que sur Cyberpunk 2077 (jeu assez mal opti), et les tarifs des CG 4000 seront sûrement énorme.

David_L Abonné

Le 22/03/2022 à 16h 34

#1.1

Le perf/€ des RTX 4000 sera > à celui des RTX 3000 ;) Après ici on parle de Hopper qui est une solution pour DC, rien à voir avec les GeForce qui arrivent.

Le 22/03/2022 à 16h 40

#1.2

David_L

Ah, mais, Nvidia ne sortent pas d’abord l’architecture sur de l’embarqué, puis après sur PC?

Le 22/03/2022 à 16h 43

#1.3

dylem29

ll n’y a pas de règle, et il faut distinguer les lancements et les annonces. Par exemple Orin était du Ampere pour véhicule autonome avant l’heure, mais n’est sorti dans des produits que bien après l’A100 ou les RTX. Sur ces marchés de long terme les annonces se font très en avance. Sur Ampere A100 a été annoncé d’abord, les RTX 3000 ensuite.

Ici ce sera aussi le cas sans doute. Mais vu les nouveautés annoncées dans Hopper qui visent des accélération très HPC/Supercalculateur, il y a de grandes chances que les RTX 4000 soient très différentes. Encore plus que pour la série Ampere (d’où un nom de code peut être différent)

Le 22/03/2022 à 17h 11

#1.4

Dac, merci !

Refhi Abonné

Le 22/03/2022 à 20h 20

Très intéressant de découvrir les détails de ce marché de niche. En plus article agréable à lire.

Nozalys Abonné

Le 23/03/2022 à 15h 59

30 TFLOPS en FP64, ça va poutrer nos V100 et leurs 7,4 TFLOPS ! On avait sauté la génération Ampere car elle n’apportait pas grand chose en FP64 par rapport à la génération Volta. J’espère qu’ils sortiront aussi une version Quadro car on n’a pas pris des serveurs SXM.

Le 23/03/2022 à 22h 11

#3.1

Tu auras une version PCIe. Mais “Quadro” = graphique et station de travail, dérivé de GeForce, donc sans la même performance FP64

Le 24/03/2022 à 11h 55

#3.2

Pas forcément : tu peux passer les cartes Quadro en mode TCC (compute only), si tu utilises une autre carte pour gérer l’affichage, et dans ce cas tu récupères 100% de la puissance de calcul brute.

Après sur les specs de base des version PCIe vs. SXM2, sur la génération Volta il y avait effectivement un écart de performance de 10% (7 TFLOPS vs. 7,8 TFLOPS en FP64).

La génération Ampere faisait disparaître cet écart avec la A100 : 9,7 TFLOPS dans les 2 versions.

J’ai de bons espoirs pour la génération Hopper. Au pire, si un ratio revient et qu’il est similaire, passer de 30 à 27 TFLOPs mais faire un bond de 7 à 27 TFLOPS à prix équivalent ça sera déjà monstrueux.

Le 28/03/2022 à 04h 30

#3.3

Nozalys

Ce n’est pas la même architecture et pas le même but. Une option dans les pilotes n’y change rien ;) A100 et ses dérivés ont des spécificités que n’ont pas les gammes RTX A (ex-Quadro), notamment sur le FP64 et inversement. Hopper est du même acabit.

Le 28/03/2022 à 07h 58

#3.4

Je n’ai pas compris ta réponse : quand tu parles d’architecture différente, tu veux dire que ce n’est pas le même GPU qu’il y a dans une V100 SXM2 et dans une Quadro GV100 PCIe ? Ce n’est pas juste le form-factor et le type d’interconnexion inter-GPU qui changent ?

NVIDIA dévoile son H100 (Hopper) : Transformer Engine, DPX, HBM3, PCIe 5.0, 60 TFLOPS

Avec un zeste de Confidential Computing

Performances x3, TDP x1,75

Nouveaux accélérateurs, instructions et fonctionnalités

H100 sera proposé sous différentes formes

Tiens, en parlant de ça :

[Édito] Au pays des VPN menteurs…

Article sponsorisé par les lecteurs de Next

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Le progrès <3

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

NSA.I

Sommaire de l'article

Introduction

Performances x3, TDP x1,75

Nouveaux accélérateurs, instructions et fonctionnalités

H100 sera proposé sous différentes formes

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

Commentaires (11)