Arrhenius en Suède : le prochain supercalculateur EuroHPC vise le Top 20 mondial

Surprise (ou pas), il est pensé pour… l’IA

Arrhenius en Suède : le prochain supercalculateur EuroHPC vise le Top 20 mondial

Arrhenius en Suède : le prochain supercalculateur EuroHPC vise le Top 20 mondial

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Un nouveau supercalculateur va arriver en Europe, via le programme EuroHPC : Arrhenius en Suède. Il devrait proposer une puissance aux alentours de 30 petaflops, ce qui le placerait dans le Top 5 européen. On manque par contre cruellement de détails techniques pour le moment. 

L’Entreprise commune pour le calcul à haute performance européen (EuroHPC pour European High Performance Computing) développe tout un écosystème de supercalculateurs en Europe, y compris sur le quantique. Elle a été mise en place en 2018 et dispose d’un budget de 7 milliards d’euros pour la période 2021 à 2027. 

Arrhenius en hommage à Carl Axel

Elle vient d’annoncer qu’une nouvelle machine – baptisée Arrhenius – sera hébergée à l’université de Linköping en Suède. L’appel à projet avait été lancé en décembre dernier. Ce nom est un hommage à Carl Axel Arrhenius, un « géologue et chimiste suédois qui a découvert la gadolinite en 1787 ». Ne pas le confondre avec  Svante A. Arrhenius, lui aussi chimiste suédois et prix Nobel en 1903. 

Comme les autres supercalculateurs EuroHPC, Arrhenius sera disponible pour des utilisateurs européens (chercheurs, étudiants, industrie…), peu importe où ils se trouvent en Europe. 

Du milieu de gamme, aux alentours de 30 petaflops

Ce nouveau supercalculateur se placera dans le « milieu de gamme de la classe mondiale ». EuroHPC annonce plus de 10 petaflops de puissance de calcul dans son communiqué, tandis que l’université de Linköping (LiU) est un peu plus précise avec environ 30 petaflops. Elle ajoute que le supercalculateur serait alors « l’un des 20 supercalculateurs les plus rapides au monde, et l’un des cinq premiers en Europe ». 

On a évidemment droit aux promesses habituelles : « Arrhenius s'attaquera à l'intelligence artificielle, au machine learning et à d'autres applications nécessitant une bande passante mémoire élevée et des transferts de données rapides ». Par contre, pour les détails techniques, on repassera… Le fabricant de cette machine ne semble pas encore sélectionné.

EuroHPC Arrhenius

Efficacité énergétique et cofinancement Europe/Suède

Selon EuroHPC, « être placé en Suède permettra à Arrhenius d'être à la fois efficace sur le plan énergétique et économique, car la Suède a l'une des émissions de gaz à effet de serre par kilowattheure les plus faibles d'Europe ».

Le supercalculateur sera co-financé par EuroHPC – jusqu'à 35 % du coût total de la machine, dans la limite de 48 millions d’euros – et le Conseil suédois de la recherche scientifique. Les modalités exactes seront précisées ultérieurement lorsque l’accord d’hébergement sera signé. La machine sera sous la responsabilité du National Academic Infrastructure for Supercomputing in Sweden (NAISS). 

Les autres supercalculateurs EuroHPC

Actuellement, EuroHPC compte huit supercalculateurs, situés à travers l'Europe : 

  • Lumi en Finlande : 375 petaflops (CPU AMD EPYC et GPU Radeon Instinct)
  • Leonardo en Italie : 249,5 petaflops (CPU Intel Sapphire Rapids et GPU NVIDIA Ampere)
  • MareNostrum 5 en Espagne : 205 petaflops (CPU Intel Sapphire Rapids et GPU Nvidia Hopper)
  • Meluxina au Luxembourg : 12,8 petaflops (CPU AMD EPYC et GPU NVIDIA Ampere)
  • Karolina en République Tchèque : 9,6 petaflops (CPU AMD EPYC et GPU NVIDIA Ampere)
  • Deucalion au Portugal : 7,2 petaflops (CPU AMD A64FX Arm et EPYC, GPU NVIDIA Ampere)
  • Vega en Slovénie : 6,9 petaflops (CPU AMD EPYC et GPU NVIDIA Ampere)
  • Discoverer en Bulgarie : 4,5 petaflops (CPU AMD EPYC, pas de GPU)

D’autres projets sont en cours avec Deadalus en Grèce. Il paraît – sur le papier – assez proche d’Arrhenius. Il s’agit là encore d’un « supercalculateur de milieu de gamme, capable d'effectuer plus de 30 pétaflops ». Le coût d'acquisition de cette machine est estimé à 33 millions d'euros, dont un maximum de 10 millions d'euros par EuroHPC (35 %) et le reste (65 %) par la Grèce.

Signalons aussi les projets Levente en Hongrie, CASPIr en Ireland et EHPCPL en Pologne. L’ensemble de ces projets (y compris Deadalus) ont été annoncés en juin de l’année dernière. Pour ces machines « milieu de gamme », le financement d’EuroHPC ne dépassera pas 35 % du montant total. 

Deux machines exascales sont également en préparation : JUPITER en Allemagne (273 millions d'euros, aussi annoncée en juin 2022) et Jules Verne (500 millions d’euros) qui vient tout juste d’être confirmée pour la France. Pour ces deux supercalculateurs, EuroHPC finance la moitié de chaque projet.

Commentaires (12)


Moi qui pensait que le monde irait mieux avec le passage de l’ETH en POS.
Finalement non, l’IA consommera l’Energie que l’ETH ne consomme plus !



Du coup, il y a des pool pour fournir du GPU aux IA et rentabiliser mon GPU ?!



janvi a dit:


Moi qui pensait que le monde irait mieux avec le passage de l’ETH en POS […] rentabiliser mon GPU




tu n’as pas l’impression d’être un élément essentiel du problème ?


Un élément essentiel ? Au moins !
Ma CG est pour les jeux, le minage l’hiver me permettait de chauffer mon bureau, tout en “rentabilisant” ma carte et couvrant “son usure”



Cet hiver je ne l’ai pas fait, car son utilité première est le jeux. Je ne voulais pas la dégrader en minant sans que le gains soit suffisant pour amortir la dégradation.
Et c’est peut être bête, mais je m’en veux presque d’avoir consommé de l’électricité pour ne produire que des calories, j’ai l’impression d’avoir gâcher de l’énergie juste pour éviter de perdre de l’argent.



janvi a dit:


Du coup, il y a des pool pour fournir du GPU aux IA et rentabiliser mon GPU ?!




Tu peux installer toi-même les outils basés IA et t’en servir à tes propres usages sur ta machine. C’est ce que j’ai fait avec mon ancienne machine de jeux. Le commerce d’images produites par IA générative est un exemple de rentabilisation. Au même titre que des livres produits par IA générative sont vendus sur Amazon.



janvi a dit:


Cet hiver je ne l’ai pas fait, car son utilité première est le jeux. Je ne voulais pas la dégrader en minant




Comment on peut dégrader une carte graphique ? (ou un processeur)
Ça ne s’use pas quand on s’en sert, il n’y a pas de mécanique ni d’éléments qui se dégrade comme sur de la mémoire Flash.



janvi a dit:


Cet hiver je ne l’ai pas fait, car son utilité première est le jeux. Je ne voulais pas la dégrader en minant sans que le gains soit suffisant pour amortir la dégradation. Et c’est peut être bête, mais je m’en veux presque d’avoir consommé de l’électricité pour ne produire que des calories, j’ai l’impression d’avoir gâcher de l’énergie juste pour éviter de perdre de l’argent.




Le minage est ce qui use le moins une carte graphique. Elle est à température à peu près constante, c’est clairement ce que l’électronique préfère.




OlivierJ a dit:


Comment on peut dégrader une carte graphique ? (ou un processeur) Ça ne s’use pas quand on s’en sert, il n’y a pas de mécanique ni d’éléments qui se dégrade comme sur de la mémoire Flash.




Ce sont surtout les variations de température qui fatiguent l’électronique, mais ce n’est pas spécifique aux cartes graphiques ou aux processeurs (même si eux y sont bien moins sensibles en tant que “”“macropuce”“”) :chinois:
Et il faut un bon moment pour que l’effet soit visible, généralement quelques années de variations régulières :D


Après du minage intensif ou sur une longue période, les cartes ont leurs performances qui se dégradent ou panne franche aussi bien en minage (perte de H/rate) qu’en jeu (apparition d’artefact, lenteur, plantage, …).



Les cartes sont conçu pour “tenir” un certain temps pour une utilisation précise. Des composant sélectionner avec une durée de vie cohérente, le refroidissement adapté aux composants et leur sollicitation (pour rester dans la plage de température adéquat pour garantir la durée de vie)



En minant, les cartes sont sollicité différement de ce pour quoi elle sont conçu.
Le GPU par exemple n’est presque plus sollicité et souvent downclocker pour réduire ça consomation electrique (la temperature visée est souvent moins de 55 ou 60°c, donc loin de ce qu’il atteint en jeu).
A l’inverse la RAM est sur-utilisée (comparé à une utilisation en jeu), fréquence overclocker et va chauffer beaucoup plus que prévu dans la conception de la carte.
Mais ce déplacement de la sollicitation / chaleur, n’est pas limité qu’au CPU / RAM, donc d’autre composant peuvent ne plus être dans la plage de température ou la sollicitation pour laquelle ils sont prévu.



On ajoute à ça le facteur “temps” : entre une conception pour 4h quotidienne de jeux pendant 5 ans (totalement au hasard l’exemple) et du minage H24.



Après effectivement le terme “usure” est peu être pas adapté car ça détérioration peut être progressive, par palier ou soudaine.


janvi

Après du minage intensif ou sur une longue période, les cartes ont leurs performances qui se dégradent ou panne franche aussi bien en minage (perte de H/rate) qu’en jeu (apparition d’artefact, lenteur, plantage, …).



Les cartes sont conçu pour “tenir” un certain temps pour une utilisation précise. Des composant sélectionner avec une durée de vie cohérente, le refroidissement adapté aux composants et leur sollicitation (pour rester dans la plage de température adéquat pour garantir la durée de vie)



En minant, les cartes sont sollicité différement de ce pour quoi elle sont conçu.
Le GPU par exemple n’est presque plus sollicité et souvent downclocker pour réduire ça consomation electrique (la temperature visée est souvent moins de 55 ou 60°c, donc loin de ce qu’il atteint en jeu).
A l’inverse la RAM est sur-utilisée (comparé à une utilisation en jeu), fréquence overclocker et va chauffer beaucoup plus que prévu dans la conception de la carte.
Mais ce déplacement de la sollicitation / chaleur, n’est pas limité qu’au CPU / RAM, donc d’autre composant peuvent ne plus être dans la plage de température ou la sollicitation pour laquelle ils sont prévu.



On ajoute à ça le facteur “temps” : entre une conception pour 4h quotidienne de jeux pendant 5 ans (totalement au hasard l’exemple) et du minage H24.



Après effectivement le terme “usure” est peu être pas adapté car ça détérioration peut être progressive, par palier ou soudaine.


Le phénomène d’usure dans le temps s’appelle l’électro-migration.
Comme pour un cours d’eau, les parties les plus étroites vont avoir plus de courant, s’échauffer plus et la matière va s’arracher petit à petit.
Il y a des outils pour tenter d’analyser ce phénomène;
on a 2 valeurs clés du constructeur :
Le courant Ipeak qu’un fil d’un diamètre donné peut passer max. Si tu vas au delà, c’est fusible direct, ça pète.
Le courant Iavg qui va être pour un usage de 50% pendant 10ans.
Il y a un ratio de plusieurs centaines entre les 2.



Après, selon la partie du circuit, tu vas être plus ou moins concerné :
L’arbre de clock qui est censé basculer quasiment tout le temps va être rigoureusement regardé, la circuiterie qui bascule les modes de veille aura moins d’attention pour Iavg.
:chinois:



Patch a dit:



Ce sont surtout les variations de température qui fatiguent l’électronique, mais ce n’est pas spécifique aux cartes graphiques ou aux processeurs (même si eux y sont bien moins sensibles en tant que “”“macropuce”“”) :chinois: Et il faut un bon moment pour que l’effet soit visible, généralement quelques années de variations régulières :D



janvi a dit:


Après du minage intensif ou sur une longue période, les cartes ont leurs performances qui se dégradent ou panne franche aussi bien en minage (perte de H/rate) qu’en jeu (apparition d’artefact, lenteur, plantage, …).
Après effectivement le terme “usure” est peu être pas adapté car ça détérioration peut être progressive, par palier ou soudaine.




Que l’électronique lâche, ça arrive, mais que les performances d’un processeur se dégradent, je vois mal comment, pour le coup c’est plutôt binaire, soit ça marche, soit un endroit de la puce a un problème et clairement ça ne fonctionne plus normalement (valeurs erronées, blocage/plantage).




barlav a dit:


Le phénomène d’usure dans le temps s’appelle l’électro-migration.




En tous cas, concernant les supercalculateurs, ils fonctionnent pendant des années et plus ou moins “à fond” (on essaie de maximiser l’utilisation, vu le prix), et je n’ai jamais entendu parler d’usure.
Alors sans doute sont-ils mieux conçus ou refroidis que les cartes graphiques grand public, mais je reste perplexe sur l’usure d’un CPU (ou GPU, ça reste du processeur au sens large). C’est probablement une autre partie de la carte graphique qui a des soucis que le GPU proprement dit.


C’est une chaine, le maillon le plus faible dans le design lâchera un jour; ça peut venir de l’étage d’alim aussi qui est mal refroidi, …



Quand on conçoit une IP ou un chip, on peut analyser ce type d’usure.
Après, j’ai déjà vu des violations de l’ordre de x10; et on a laissé …
En fait on s’est posé la question de savoir si le testcase était valide :
ecrire et lire 1 bit dans la mémoire en 10ns, puis aller faire la même chose dans la colonne d’après est très stressant pour la zone concernée, mais ça n’est pas un usage qui va être répété chaque milliseconde pendant 10ans.



Aussi tu peux avoir des dégradations de performances qui rentrent dans les marges prévues par le constructeur : Au début tu peux avoir un truc stable @3GHz et 0.9V en undervoltant; après 5ans tu auras des crashs si tu ne reviens pas au réglage par défaut.



Il y a aussi des simulations “montecarlo” qui prédisent les variations, on parle alors de sigma (3, 6, ..).
Sur 10k CPU qui tournent pendant 2ans, on peut avoir quelques résultats faux.
Est ce que c’est grave ? Est-ce que c’est une faille potentielle ?
Quel cout cela a pour restreindre ces cas ?
Rien que les appels de courant du CPU peuvent être une brèche potentielle pour des hackers.
Tous les circuits qu’on met en place pour optimiser l’exécution sont autant de failles possibles.
:chinois:


Je ne pense pas que les supercalculateur sont poussé à leur max :
Quand tu as un matos à plusieurs milliers d’€ voir million, je vois mal les utilisateurs pousser le truc au dela des spec constructeur (et donc perde la maintenance associée).
Quand ils ne sont plus suffisament performant, je pense qu’il n’y a pas d’overclock ou autre, simplement l’ajout de noeud de calcul. Car finalement c’est “simplement” des noeuds - serveurs plus ou moins standard - qui travaillent ensemble.



Le minage, tu sollicite la carte d’une façon inattendu. Le GPU est peu utilisé, lui pas de problème.
La RAM de la carte sur sollicitée (overclock, monté en température, …) que ce soit elle ou effectivement les étage d’alimentation en amont, la sollicitation n’est pas celle prévu à la conception. Quand la panne n’est pas franche, je pense que c’est les données stocké sur la RAM qui finissent par se corrompre (les memtest montre bien que de la ram peu devinir défaillante sur PC, avec des conséquence plus ou moins simple à rapprocher de la RAM sans memtest).



Et au final, la carte graphique à un fonctionnement plus ou moins stable, en fonction de la dégradation de la RAM ou des autres composant



janvi a dit:


Je ne pense pas que les supercalculateur sont poussé à leur max : Quand tu as un matos à plusieurs milliers d’€ voir million, je vois mal les utilisateurs pousser le truc au dela des spec constructeur




Ils sont utilisés au max, 24h/24, sauf maintenance. Les specs constructeur c’est un CPU que tu peux utiliser en continu pendant des heures, je ne vois pas comment on peut pousser au-delà des specs.




Quand ils ne sont plus suffisament performant, je pense qu’il n’y a pas d’overclock ou autre




Ben non, l’overclocking c’est un truc de geek, et encore il y a plein de geeks qui utilisent leur matériel sans s’embêter avec ça. Perso je n’ai jamais overclocké.




Le minage, tu sollicite la carte d’une façon inattendu. Le GPU est peu utilisé, lui pas de problème.




Qu’est-ce que tu racontes ? C’est le GPU qui mine,




La RAM de la carte sur sollicitée (overclock, monté en température, …)




La RAM est ni plus ni moins sollicitée que lors d’un jeu vidéo, et la RAM ne s’use pas.




que ce soit elle ou effectivement les étage d’alimentation en amont, la sollicitation n’est pas celle prévu à la conception.




Les concepteurs de carte graphique les testent forcément à fond, d’autant plus qu’ils savent qu’elles peuvent servir aussi au minage. Un jeu vidéo exigeant ça utilise beaucoup la carte, d’où les ventilateurs multiples et les centaines de W consommés.



Après, c’est possible que l’étage d’alimentation finisse par fatiguer, car là c’est de l’électronique de puissance (par rapport aux transistors du CPU/GPU/RAM).




Quand la panne n’est pas franche, je pense que c’est les données stocké sur la RAM qui finissent par se corrompre




En général, la RAM quand elle a des erreurs, c’est tout de suite, pas à la longue.


Fermer