TOP500 des supercalculateurs : peu de changements, toujours aucun exascale

TOP500 des supercalculateurs : peu de changements, toujours aucun exascale

La France en 14e position

Avatar de l'auteur
Sébastien Gavois

Publié dans

Hardware

16/11/2021 3 minutes
35

TOP500 des supercalculateurs : peu de changements, toujours aucun exascale

Semestre après semestre, Fugaku reste indétrônable dans le domaine des supercalculateurs avec un niveau de performances près de 3x supérieur à celui du deuxième du classement. Alors que l’on attendait des machines de type exascale, elles ne montrent pas encore le bout de leur benchmark.

Deux fois par an – en juin et en novembre – le classement Top500 des supercalculateurs est mis à jour. Pas de gros changements cette fois-ci puisque Fugaku est toujours en tête avec ses 7 630 848 cœurs (A64FX, architecture ARM) pour une puissance de calcul de 442 PFLOPS. Summit le suit avec « seulement » 148 PFLOPS.

Tous les autres sont sous les 100 PFLOPS, comme Sierra à 94,6 PFLOPS, Sunway TaihuLight à 70,9 PFLOPS, etc. 

TOP500 novembre 2021

Voyager-EUS2 dans le TOP10, AMD prend ses aises

Hormis un gain de performances pour Perlmutter (5e position) qui passe de 64,6 à 70,8 PFLOPS, il faut descendre jusqu’à la 10e place pour voir un changement notable avec un nouveau venu : Voyager-EUS2 de Microsoft Azure.

Ce supercalculateur exploite des processeurs AMD EPYC (48 cœurs à 2,45 GHz) avec des GPU NVIDIA A100 et 80 Go de mémoire. Sa puissance est de 30 PFLOPS. Il prend la place de Frontera de DELL EMC (avec des Xeon Platinum 8280) qui descend à la 13e place.  AMD occupe d'ailleurs toujours une bonne place dans ce classement puisque 4 des 10 supercalculateurs du TOP10 sont équipés de ses processeurs EPYC, contre un seul supercalculateur en Intel.

Autre motif de satisfecit : toutes les nouvelles machines du TOP15 sont équipées de ses processeurs. Intel espère bien revenir dans la course avec Sapphire Rapids l'année prochaine, Xe et Ponte Vecchio. Il profite d'ailleurs de cette publication et de la conférence Super Computing 2021 qui se tient actuellement pour évoquer ces projets.

Ethernet, Chine, et USA toujours en tête

Pas de gros changement au niveau des interconnexions : Ethernet est toujours en tête en étant présent sur 240 supercalculateurs, suivi par Inifiniband avec 180. « Les interconnexions Ominpath sont présentes 40 fois sur la liste, il y a 34 interconnexions personnalisées et seulement 6 systèmes avec des réseaux propriétaires ».

La Chine et les États-Unis dominent largement les débats : « Bien que la Chine soit passée de 186 systèmes à 173 [dans le Top500], les États-Unis sont passés de 123 machines à 150 ». La France compte une vingtaine de machines, dont le CEA-HF à la 14e place, PANGEA III de Total à la 29e place et de nouveau le CEA (Tera-1000-2) à la 42e place.

TOP500 novembre 2021

Green500 et HPCG500, où sont les machines exaflopiques ?

La liste Green500 est aussi mise à jour, avec un classement qui tient aussi compte de la consommation. Pas de changement dans les premières places, que ce soit pour l’ordre ou l’indice d’efficacité énergétique. Même chose pour le classement « alternatif » High-Performance Conjugate Gradient (HPCG), très proches de la liste Top500.

Enfin, et « bien qu'il y ait également eu des rapports sur plusieurs systèmes chinois atteignant des performances de niveau Exaflop, aucun de ces systèmes n'a soumis de résultat au TOP500 ». La nuance est importante : il n’est pas question de réfuter leur existence, mais simplement de dire qu’aucun benchmark n’a été envoyé.

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Voyager-EUS2 dans le TOP10, AMD prend ses aises

Ethernet, Chine, et USA toujours en tête

Green500 et HPCG500, où sont les machines exaflopiques ?

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (35)


Gamin (en 1986), j’avais le Guiness Book qui parlait du CRAY II qui dépassait le GFlops. j’avais des étoiles dans les yeux quand je lisais les spec du monstre.
Puissance présente dans un simple iPhone 4 (30 ans après)
Ces abyssale de penser à la puissance qu’auront nos enfants et petits enfants dans leur main d’ici qq années


Rha le vieux !



Blague à part, si nos enfants auront la même opportunité de consommation que nous (et c’est pas gagné).



puisque Fugaku est toujours en tête avec ses 7 630 848 cœurs (A64FX, architecture ARM) pour une puissance de calcul de 442 PFLOPS. Summit le suit avec « seulement » 148 PFLOPS.




Pour ces deux là, c’est surtout une question de quantité de ressources matérielles (pour ~3 fois plus puissant, Fugaku a ~3 fois plus de proc et consomme ~3 fois plus)




Jyl2 a dit:


Ces abyssale de penser à la puissance qu’auront nos enfants et petits enfants dans leur main d’ici qq années




C’est pas dit qu’on puisse augmenter indéfiniment la montée en puissance (la montée en fréquence a déjà été stoppée).



Jyl2 a dit:


Gamin (en 1986), j’avais le Guiness Book qui parlait du CRAY II qui dépassait le GFlops. j’avais des étoiles dans les yeux quand je lisais les spec du monstre. Puissance présente dans un simple iPhone 4 (30 ans après) Ces abyssale de penser à la puissance qu’auront nos enfants et petits enfants dans leur main d’ici qq années




LOL, bah en 1900, ils avaient 0GFlops et c’est la secretaire qui verifiait tous les calculs…
A l’époque, ils étaient à la pointe de la technologie compaér à 1800 (tout est relatif).
L’avancée est plus que Abyssale si on les compare à aujourd’hui.
T’imagine même pas les progrès qu’ils ont fait entre 1900 et 1960, de 1960 à 1970, etc…
Le rituel de tous les jours en fait….



Bref, il aut arreter de croire qu’on est à la pointe de la civilisation et que les progrès de notre époque est plus extraordinaire qu’autrefois ou plus que dans les années à venir…



deathscythe0666 a dit:


Pour ces deux là, c’est surtout une question de quantité de ressources matérielles (pour ~3 fois plus puissant, Fugaku a ~3 fois plus de proc et consomme ~3 fois plus)




Dire ça c’est dire “yakafokon”. Si faire mieux que Fugaku nécessitait “simplement” de mettre plus de composants, ce serait fait depuis longtemps. Si Fugaku n’était “que” trois fois plus de composants que le second, l’écart ne serait pas aussi grand entre les deux ;)




C’est pas dit qu’on puisse augmenter indéfiniment la montée en puissance (la montée en fréquence a déjà été stoppée).




D’ailleurs, 640 ko de mémoire suffisent (ce que Bill Gates n’a jamais dit).


Je ne vais même pas si loin en voyant les machines qu’on a eu au boulot, on est passé de ~0,16 TFLOPS en 2003 à un peu plus de 3,2 PFLOPS prévus pour mi-2022 :D


Est-ce que la montée de l’Ethernet au profit de l’Infiband est lié à uniquement à une question de coût ?


C’est aussi qu’Ethernet monte en débit et colle à certains besoins sans être une limite en soi. Dans le domaine des supercalculateurs on ne mégote pas sur les interconnexions si ça a de réels impacts.


La comparaison avec les machines personnelles est un peu inutiles : ces monstres ne doivent s’exprimer pleinement qu’avec des calculs hautement parallelisables…
Pour voir l’évolution, j’ai regardé les précédentes news : summit était 1er en juin 2019. Quasiment x3 en 30 mois, pas mal !
Sinon, est-ce qu’il y a des résultats concrets avec une telle puissance (prévisions météo plus fiables, découverte médicale…)?


Je n’ai pas regardé s’il y a plus récent, mais le Genci avait publié un rapport sur les résultats de Joliot Curie


C’est aussi une question pour certains pays et fabricants d’introduire un max de machines dans le classement pour pouvoir bomber du torse devant les autres.



Une très grosse partie des machines équipées uniquement en Ethernet sont finalement plutôt utilisées pour des services cloud, ou à la limite pour du High Troughput Computing (exécuter une multitude de jobs faiblement parallèles ou juste multithreadés, voire même simplement séquentiels, en simultané et pour une durée relativement longue), mais peu ou pas du tout pour des workloads typiquement HPC (gros jobs hautement parallèles).



En fait ça fait longtemps que le benchmark utilisé pour le TOP500 ne reflète plus les perfs qu’on peut obtenir avec de vrais workloads HPC, mais il est toujours utile pour comparer l’évolution des systèmes dans le temps… et faire des stress tests, c’est efficace pour faire chauffer les noeuds de calcul et les faire consommer :transpi:



David_L a dit:


Dire ça c’est dire “yakafokon”. Si faire mieux que Fugaku nécessitait “simplement” de mettre plus de composants, ce serait fait depuis longtemps. Si Fugaku n’était “que” trois fois plus de composants que le second, l’écart ne serait pas aussi grand entre les deux ;)




Quelle est la particularité de Fugaku qui lui permettrait d’atteindre 7 millions de cores et pas summit ? (hors besoin des utilisateurs évidemment)


Donc en gros, pour des taches qui fonctionne bien en SPMD (e.g. création de quickview des résultats de simu) ont utilise de l’Ethernet. Et l’Infiniband est gardé pour les gros codes qui utilise à fond du MPI et on un besoin de perf conséquent (e.g., modèle). Le tout avec des différents “noeuds” pour chaque type de tâche ?




DoWnR a dit:


En fait ça fait longtemps que le benchmark utilisé pour le TOP500 ne reflète plus les perfs qu’on peut obtenir avec de vrais workloads HPC, mais il est toujours utile pour comparer l’évolution des systèmes dans le temps… et faire des stress tests, c’est efficace pour faire chauffer les noeuds de calcul et les faire consommer :transpi:




Existe-il un test vraiment représentatif ? Au vu de la diversité des méthodes numériques pour résoudre les équations de nos jours et leur applications dans différents domaines, je suis pas sur qu’on puisse avoir un truc idéal.


Merci pour le lien David.
Cette puissance a donc l’air intéressante, par exemple, pour la conception et l’optimisation des moteurs thermiques. On entend pas mal concernant les prédictions climatiques, mais ça n’empêche pas météo France de se tromper sur le temps qu’il fera demain :-)


Les Grands Challenges c’est une composante particulière (gros projets qui servent de bêta-testeurs dans les premiers mois après l’installation d’un nouveau supercalculateur).



Pour plus d’information sur la typologie des projets il y a ça : https://www.genci.fr/fr/content/bilan-des-campagnes et sinon sur les résultats il y a ça : https://www.genci.fr/fr/articles-categories/exemples-et-resultats.



En théorie il devrait être possible de retrouver les articles dérivant de travaux de recherche ayant utilisé les moyens de calcul du Genci puisqu’ils doivent inclure des remerciements du type “This work was granted access to the HPC resources of [nom du centre] under the allocation 20XX-[numéro de dossier] made by GENCI”.



Je crois que Genci voulait aussi rendre public une version courte des résumés des projets acceptés pour chaque allocation mais je ne sais pas où ça en est.


Son architecture, ses interconnexions notamment (qui sont une grosse partie du travail au sein de Fugaku même si c’est moins mis en avant), la couche logicielle peut aussi jouer un rôle important dans les résultat affichés. Mais globalement, penser qu’il suffit d’empiler le hardware pour taper un gros score c’est méconnaitre la complexité de tels systèmes et de la manière de gérer la distribution des calculs.



BlackLightning a dit:


Existe-il un test vraiment représentatif ? Au vu de la diversité des méthodes numériques pour résoudre les équations de nos jours et leur applications dans différents domaines, je suis pas sur qu’on puisse avoir un truc idéal.




HPL est quand même un peu simpliste. Pour un benchmark plus représentatif des applications complexes, tu as graph500 (www.graph500.org).


Mouais. On dirait un benchmark pour des codes d’ingé plutôt que des modèles de labos. Attention, je dis pas que c’est inutile mais je trouve que ça me semble réducteur.



HPL est un solveur qui memory-bounds de nos jours. Alors certes, on trouve ce type de solveur dans de nombreux codes mais souvent avec des formes optimisés (mathématiques et numériquement) pour un problème données. Mais ni HPL, ni graph500 sont suffisants pour bien représenter les besoins des différents codes. Par contre, il a l’avantage de voir comment les machines se comportent avec des structures de données différentes des matrices creuses.


Il y a aussi le classement High-Performance Conjugate Gradient (HPCG) (mentionné dans l’article), qui est lui bien plus représentatif des calculs qui sont fait dans les supercalculateurs (matrice creuse). Pour avoir testé HPL et HPCG sur un supercalculateur, HPCG montre bien plus ce dont est capable le supercalculateur.
Parlant du Fugaku, la topologie du supercalculateur (comment sont reliées les noeuds de calcul) joue beaucoup aussi dans ses performances réelles. Celle du Fugaku est assez complexe!



Oui Infiniband (au autre connexion à basse latence) est crucial pour lancer un code MPI sur plusieurs noeuds. Tu peux en théorie lancer le même code via des connexions ethernet, mais la performance ne sera pas au rendez-vous.


Tu as des sources/détails récents sur la comparaison IB/Ethernet ?



Roy_974 a dit:


Parlant du Fugaku, la topologie du supercalculateur (comment sont reliées les noeuds de calcul) joue beaucoup aussi dans ses performances réelles. Celle du Fugaku est assez complexe!




Je pense également que les unités vectorielles aident pas mal non plus. Les méthodes types SOR, CG et leurs variantes, d’expérience, s’accommode bien des unités vectorielles. On sort de l’interconnexion cependant.




Roy_974 a dit:


Oui Infiniband (au autre connexion à basse latence) est crucial pour lancer un code MPI sur plusieurs noeuds. Tu peux en théorie lancer le même code via des connexions ethernet, mais la performance ne sera pas au rendez-vous.




Malheureusement, je n’ai pu jouer qu’avec de l’Ethernet :(
C’est pour ça que je suis toujours curieuse pour l’Infiniband.


Oui d’où ma question sur les chiffres récents, parce qu’on voit pas mal de monde passer d’IB à Ethernet ces dernières années ou des projets en cours, j’imagine que si c’était pour avoir un gros différentiel ils feraient des choix différents.


L’intéret d’un supercalculateur est de faire tourner une grosse simulation sur de nombreux noeuds. La simulation est découpée en plus petit morceaux, distribué sur des noeuds. Chaque morceau de la simulation a besoin de connaitre le résultat du voisin afin que la simulation soit cohérente.
Avoir des unités vectorielles avec les bibliothèques spécialisées qui vont avec font tourner le code plus rapidement sur un noeud. Infiniband permet de rapprocher dans le temps les noeuds entre eux. Genre si un noeud X veut connaitre le résultat d’un noeud Y, avec Ethernet ça prendra des ms, avec Infiniband des µs.


Cela doit dépendre des besoins finaux du supercalculateur. Pour du calcul scientifique, repasser en Ethernet me parait bizarre.


C’était vrai avant RDMA/RoCEv2 & co, mais les choses ont pas mal évolué sur ce terrain (notamment pour des besoins stockage où la latence est aussi importante mais pas que), c’est ce qui pousse sans doute pas mal à revoir les positions. Après c’est peut être aussi une question de juste milieu si Ethernet s’approche des performances d’IB mais avec un coût bien moindre en comparaison, tu peux avoir un équilibre différent dans la dépense. J’en reparlerai ici ou là à l’occasion :chinois:


A propos de la machine Exascale chinoise qui n’est pas au top 500 mais qui existerait quand même :
https://www.hpcwire.com/2021/11/18/2021-gordon-bell-prize-goes-to-exascale-powered-quantum-supremacy-challenge/


C’est d’ailleurs pour ça qu’on a inventé le TOP500 notamment : ne pas se contenter de ceux qui font les kékés dans les communiqués de presse, seulement ceux qui fournissent des résultats vérifiables :D


Un prix Gordon Bell, ce n’est quand même pas tout-à-fait un communiqué de presse…



Jyl2 a dit:


Gamin (en 1986), j’avais le Guiness Book qui parlait du CRAY II qui dépassait le GFlops. j’avais des étoiles dans les yeux quand je lisais les spec du monstre. Puissance présente dans un simple iPhone 4 (30 ans après) Ces abyssale de penser à la puissance qu’auront nos enfants et petits enfants dans leur main d’ici qq années




Pareil pour les étoiles dans les yeux avec ce genre de “bébête”, ou le futur Cray-3 qui devait fonctionner à 500 MHz (énorme par rapport aux 25-50 des microprocesseurs les plus puissants).



Cela étant dit, vu les problèmes énergétiques et de minerais qui sont à venir, c’est pas gagné pour que ce progrès soit sans fin, et pour les petits-enfants je me demande.




thecis a dit:


Blague à part, si nos enfants auront la même opportunité de consommation que nous (et c’est pas gagné).



deathscythe0666 a dit:


C’est pas dit qu’on puisse augmenter indéfiniment la montée en puissance (la montée en fréquence a déjà été stoppée).




Idem.




el_cuisto a dit:


Sinon, est-ce qu’il y a des résultats concrets avec une telle puissance (prévisions météo plus fiables, découverte médicale…)?




Pour la météo ça participe à l’amélioration des prévisions, car diminuer la taille de la maille élémentaire (cube dans l’atmosphère, ou intervalle de temps) fait très vite augmenter la quantité de calculs. Et on peut calculer à un peu plus loin avec une meilleure précision (avec les limites de l’instabilité intrinsèque des systèmes non linéaires).


ce n’est pas non plus un standard du secteur, d’où le TOP500 ;)


Le Gordon Bell, c’est un peu plus que le “standard du secteur” : c’est le top. Il ne suffit pas d’avoir une grosse machine, il faut en plus une contribution algorithmique à grande portée.
Ce n’est pas une façon habituelle de présenter une grosse machine, certes. On apprend l’existence de la machine uniquement parce qu’elle est citée dans des travaux qui ont remporté l’équivalent du prix Nobel : on est selon moi bien au-delà de “faire le kéké dans un communiqué de presse”, et même si ça ne suit pas le “standard”, c’est quand même tout-à-fait respectable.



David_L a dit:


Tu as des sources/détails récents sur la comparaison IB/Ethernet ?




Dans mon expérience IB, OmniPath ou assimilé ça change tout par rapport à de l’Ethernet mais je n’ai pas de chiffres sous la main.



En tout cas je ne connais pas une seule machine dédiée au HPC qui utilise de l’Ethernet.



Tu aurais besoin de quoi comme chiffres ? Je peux potentiellement récupérer des mesures en IB ou OmniPath.


Ne mélange pas tout. Avoir un prix pour avoir présenté des recherches spécifiques avec une machine est une chose effectivement tout à fait respectable. Mais si tu veux clamer que ta machine est Exaflopique (1.2 Eflops FP32 ici), il faut publier des chiffres qui permettent de le vérifier. Or, rien dans le prix gagné ou le CP que tu as mentionné ne l’assure. Le classement TOP500 a été créé pour unifier les choses à ce sujet, on attend donc la soumission d’un résultat pour vérifier le niveau de performances effectif.


J’ai hâte de voir d’autres sujets là dessus :)