Grosse Bertha bare metal de Scaleway à 448 threads : 20 To de stockage et jusqu'à 25 Gb/s

Grosse Bertha bare metal de Scaleway à 448 threads : 20 To de stockage et jusqu’à 25 Gb/s

UP-BM2-XL au rapport

Avatar de l'auteur
David Legrand

Publié dans

Hardware

19/11/2020 5 minutes
49

Grosse Bertha bare metal de Scaleway à 448 threads : 20 To de stockage et jusqu'à 25 Gb/s

Cela fait maintenant plusieurs mois que Scaleway travaille sur un projet de serveur « monstre » basé sur une plateforme Intel lui permettant d'obtenir 224 cœurs au sein d'une même machine. Elle vient d'être mise en ligne, nous avons pu obtenir certains détails et y avoir accès.

Chez les fournisseurs de service de Cloud (CSP), l'heure est aux machines extrêmes. Il y a peu, AWS dévoilait ses instances P4d à 8 GPU A100 de NVIDIA, permettant de monter des clusters en contenant plus de 4 000. De son côté, Scaleway mise plutôt sur les besoins lourds en puissance CPU avec l'offre qu'il vient de dévoiler.

Nous l'évoquions dès cet été, la société ayant annoncé qu'elle préparait une machine exploitant des Xeon Cascade Lake d'Intel : 8x 28 cœurs, 448 threads, 1,5 To de mémoire. Depuis, le projet a évolué, s'est finalisé. Il y a quelques jours, le compte Twitter évoquait un lancement commercial, nous avons donc demandé à en savoir plus.

25 Gb/s, 448 threads, 20 To de stockage et... 7,5 To de mémoire

L'entreprise évoque rien de moins que le serveur bare metal « le plus puissant du monde »... disponible à l'heure. Rien n'est en effet virtualisé, vous accédez à la machine complète tant que vous payez l'accès.

L'hébergeur propose déjà une gamme complète de bare metal à la demande, de 0,159 à 1,724 euro de l'heure. Pour ce serveur, ça grimpe à 29,999 euros de l'heure (un clin d'œil à la maison mère et à Free ?). Pour ceux qui voudraient des engagements plus longs, ce sera possible dans un second temps nous confirme-t-on chez Scaleway.

Scaleway Bertha UP-BM2-XL

Mais pour ce prix, que propose cette instance UP-BM2-XL ? Hébergée au sein de DC5 (Zone PAR2), elle exploite 8 Xeon Platinum 8280 d'Intel. Chacun dispose de 28 cœurs (56 threads) cadencés entre 2,7 et 4 GHz.  Ils embarquent 38,5 Mo de cache et trois liens UPI pour leur interconnexion. Leur TDP est de 205 watts.

Reposant sur l'architecture Cascade Lake, ils ouvrent droit à toute la panoplie de fonctionnalités maison : Deep Learning Boost, AVX, AVX2, AVX-512 (deux unités FMA), vPro, RDT, VMD, etc. Tous les détails sont par ici. Surtout, ils gèrent la mémoire persistante Optane (DCPMM). 6 To sont intégrés en plus des 1,5 To de DDR4, soit 7,5 To au total.

Pour rappel, Optane permet d'obtenir une latence et des débits en lecture proche de la mémoire avec le débit en écriture d'un stockage Flash. Utilisé sous la forme de DIMM comme c'est le cas ici, il peut être exploité comme de la mémoire classique, la DDR4 faisant alors office de cache. Ou directement accessible à certaines applications (App Direct). Un mélange des deux peut également être exploité (dual mode). Vous trouverez plus de détails par ici.

Intel DCPMMIntel DCPMM

Le tout est monté dans un serveur Lenovo (ThinkSystem SR950). Côté stockage, il est question de 6x 3,2 To de SSD NVMe (DC P461). Mais aussi de 2x 800 Go de SSD (PM1645) avec RAID matériel (530-8i PCIe 12 Gb). La bande passante est de 10 Gb/s, elle grimpe à 25 Gb/s dans une « édition » spéciale, plus chère : 44,999 euros de l'heure.

La machine est certifiée VMWare et SAP-HANA. Solution bare metal oblige, on peut y accéder via IPMI/iKVM.

De la puissance CPU brute à la demande

Selon Scaleway, ce serveur se destine « aux calculs intensifs à la demande, aux bases de données in-memory ou transactionnelles et à tous les workloads ne permettant pas un scaling horizontal ».

De fait, il sera idéal pour ceux voulant monter une instance, effectuer un calcul puis obtenir un résultat le plus rapidement possible et n'ayant un besoin que de quelques dizaines d'heures par mois. De quoi accéder à un niveau de puissance très élevé à moindres frais, un seul Xeon Platinum 8280 étant facturé 10 009 dollars par Intel.

Nous l'avons par exemple utilisé pour compiler la dernière version de Blender (hors dépendances) en... moins de 15 secondes. Pour le processus complet, il faut 171 secondes, tout le reste du temps étant passé à des calculs annexes sur un seul cœur. Autant dire qu'il faudra trouver des charges plus lourdes pour alimenter la bête.

Scaleway Bertha UP-BM2-XLMême un rendu Blender n'arrive pas à constamment alimenter le CPU, il faut trouver plus lourd

Même chose pour le rendu de la scène Cosmos Laundromat, pourtant assez lourde, mais dont les 1 728 tuiles sont calculées en à peine 70 secondes, et encore, sans arriver à remplir constamment les CPU à 100 %. Le traitement complet de la scène demandant là encore trois minutes environ avec tout le traitement mono-CPU.

Petit bonus pour ceux qui aiment nos tests sous OpenSSL (RSA 4096 bits) :

Signatures/s :

  • 1 thread : 290
  • 448 threads : 54 776

Vérifications/s :

  • 1 thread : 18 628
  • 448 threads : 3 617 518

En moyenne, on obtient ainsi un score équivalent à 167 cœurs Zen 3 d'AMD (selon les résultats d'un 5600X).

Écrit par David Legrand

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

25 Gb/s, 448 threads, 20 To de stockage et... 7,5 To de mémoire

De la puissance CPU brute à la demande

Le brief de ce matin n'est pas encore là

Partez acheter vos croissants
Et faites chauffer votre bouilloire,
Le brief arrive dans un instant,
Tout frais du matin, gardez espoir.

Fermer

Commentaires (49)


Je me demande en combien de temps on peut compiler des navigateurs web comme Mozilla Firefox ou Chromium, avec optimisations.


Alors autant te dire que compiler FF… je ne vais pas me lancer dans l’aventure :D


Belle bête !


La vrai question c’est est-ce que 448 threads suffisent enfin pour émuler Doom directement dans une fenêtre gestionnairedetâches-like ? :D


:baton:


c’était du doom ? je sais qu’il y a eu des mecs qui se sont amusés avec de l’amd (threadripper ? 64c/128t ?) mais il me semblait que c’était d’autres joyeusetés (y’a eu des fake)


J’ai peut être loupé l’info dans l’article, mais y a t’il un temps minimum d’utilisation ? si on peut se servir de ce monstre pendant quelques secondes ou minutes facturés à la seconde, ça peut ouvrir des portes intéressantes, notamment pour des systèmes de CI/CD où l’on doit compiler des trucs souvent et avoir le résultat le plus rapidement possible.


Cascade LaKTe c’est pas repoussé de trimestre en trimestre par Intel ?



Du coup on a la réponse en avant-première : https://twitter.com/Scaleway_fr/status/1328618454279217153


Cascade Lake c’est en prod depuis un moment.




jpaul a dit:


J’ai peut être loupé l’info dans l’article, mais y a t’il un temps minimum d’utilisation ?




Facturation à l’heure chez Scaleway comme indiqué dans l’article


Le premier c’était Bad Apple, puis Doom. Mais aucun n’est vrai malheureusement (le gestionnaire de tâche Windows ne rafraichit pas aussi vite que dans toutes les vidéos qu’il y a eu et le nombre de core ne correspondait à rien d’existant ni d’affiché).


Suffit d’installer Sophos pour blinder les cpu. Peut-être même Avast pourrait faire l’affaire.


je crois que j’avais vu le truc de “bad apple”, mais avec une explication que c’était largement accéléré en effet et le nombre de coeurs semblait cohérent, lui semblait pas un fake



David_L a dit:


Alors autant te dire que compiler FF… je ne vais pas me lancer dans l’aventure :D




C’est si lourd que ça à compiler ? Qui le fait à part des devs sur le projet ?


Ya que moi pour me demander si ça permet de casser des algo de chiffrement “rentablement” ?


Franchement, ceux qui font ça le font sur GPU ou autre depuis un moment, utiliser un CPU pour ça n’est pas forcément la meilleure solution.



linkin623 a dit:


C’est si lourd que ça à compiler ? Qui le fait à part des devs sur le projet ?




Les utilisateurs de gentoo, la 1ère distribution de minage/chauffage sans cryptomonnaie :fumer:
Quelques éléments factuels sur firefox et chromium


Moi ! (j’ai gentoo) Firefox 83.0 a compilé hier en 1h52 sur mon très vieux Quad Core Q6600 (overclocké à 3GHz) avec 8go de RAM, je ne suis pas certain d’être CPU limited, je penche plutôt pour une limite des IO avec 5 threads // de mon vieux SSD: un vieux crucial M4 qui sort du 300Mo/sec (une compilation c’est énormément de petits fichiers, et le projet est trop gros pour être compilé dans un tmpfs comme les autres paquets)



C’est loin d’être le plus lourd WebKit (~ 8-10h) ou LibreOffice ~2-3h
C’est les paquets “extrêmes”, la plupart des compilations se passent en 5min, 20min pour les plus gros (genre blender)


Sur Gentoo oui ça se sent clairement pour les compilations. Avec 8Go de RAM je ne sais pas si c’est suffisant mais monte ton /var/tmp/portage en tmpfs (RAM), ça évite d’user le SSD et aussi de perdre du temps si c’est le facteur limitant.



fofo9012 a dit:


Moi ! (j’ai gentoo) Firefox 83.0 a compilé hier en 1h52 sur mon très vieux Quad Core Q6600 (overclocké à 3GHz) avec 8go de RAM, je ne suis pas certain d’être CPU limited, je penche plutôt pour une limite des IO avec 5 threads // de mon vieux SSD: un vieux crucial M4 qui sort du 300Mo/sec (une compilation c’est énormément de petits fichiers, et le projet est trop gros pour être compilé dans un tmpfs comme les autres paquets)



C’est loin d’être le plus lourd WebKit (~ 8-10h) ou LibreOffice ~2-3h C’est les paquets “extrêmes”, la plupart des compilations se passent en 5min, 20min pour les plus gros (genre blender)




Je viens de regarder la page wiki de gentoo. C’est quoi l’intérêt du système ???


Ça me rappelle quand j’ai testé l’EPYC du taf avec une poudriere freeBSD… :)



Magyar a dit:


Je viens de regarder la page wiki de gentoo. C’est quoi l’intérêt du système ???




Au feeing, je dirais:
1/ T’es sure que le binaire tourne sur ta machine ne contient pas de code malicieux qui aurait été injecté par le mainteneur.
2/ Tu peux jouer avec les options de compilations pour activer/désactiver des features de chaque app. Par exemple, tu peux vouloir compiler les lib en static dans ton binaire plutot que d’utiliser celle du système, ou bien désactiver la prise en charge d’algo de chifrement obsolète directement à la compilation.


Je reconnais cet avatar ! On s’est déjà croisés. Mais où ?



JCLB a dit:


Les utilisateurs de gentoo, la 1ère distribution de minage/chauffage sans cryptomonnaie :fumer: Quelques éléments factuels sur firefox et chromium




Et tout ce mal pour quoi faire ? Pourquoi ne pas prendre le paquet préparé sur des dépôts et l’installer ? J’ai du mal à comprendre l’intérêt de faire tourner un CPU autant de temps…


C’est ma config par défaut, mais j’ai du mettre une exception pour firefox (il lui faut ~8go d’espace pour compiler)
J’ai essayé mais le tmpfs prend tellement de place qu’au bout d’un moment tout swap, et ça devient plus lent que sans.




ForceRouge a dit:


Au feeling, je dirais:
1/ T’es sûre que le binaire tourne sur ta machine ne contient pas de code malicieux qui aurait été injecté par le mainteneur.
2/ Tu peux jouer avec les options de compilations pour activer/désactiver des features de chaque app. Par exemple, tu peux vouloir compiler les lib en static dans ton binaire plutôt que d’utiliser celle du système, ou bien désactiver la prise en charge d’algo de chifrement obsolète directement à la compilation.




Mon ordre de préférence :
D’abord les perfs : tout mon système est compilé avec le -march (entre autre) qui va bien quand je l’ai installé en 2003 j’ai constaté une énorme différence avec mon barton de l’époque (j’étais sous dérivé de debian / knoppix ou peut être déjà ubuntu me rappelle plus) aujourd’hui mon vieux q6600 avec son SSD qui a 10ans me semble au moins aussi réactif que mon Core i5-8365 du boulot du début de l’année.



La personnalisation : avec le système de use flag tu peux activer / désactiver n’importe quel feature de n’importe quel paquet.
Ça semble paradoxal mais la simplicité de dev / màj : comme tout est compilé tout l’env de dev est disponible, là où sous debian c’était laborieux de compiler un code source (il manque toujours des dépendances, faut googler des messages d’erreurs imbitables quand c’est pas les headers du noyau qui sont pas à la bonne version, sous gentoo le système de package passant par la phase compilation donc le système de package doit gérer parfaitement toutes les dépendances. Installer un nouveau pilote sous gentoo c’est cocher une case dans le menu du noyau, laisser tourner 20min en flânant sur internet avant de rebooter, sous toute autre distro si c’est pas prévu c’est la galère : tu trouves un package compilé qui ne correspond pas toujours à ton noyau, il faut alors mettre à jour le noyau… J’ai réinstaller une seule fois ma distribution depuis 2003 au passage en 64bits.



Enfin la possibilité d’aider : j’ai participé à virer python2 et qt4. Sur quelques paquets j’ai fait les patchs qui vont bien tout en apprenant python. Quand l’env de dev est tout prêt à compiler c’est moins impressionnant : un coup de chercher remplacer sous kate , un “diff -u” pour faire la patch et hop t’es prêt à tester la compilation et si ça fonctionne remplacer l’existant.
Si j’avais dû perdre du temps à installer un env de dev, je n’aurais pas eu le temps d’apprendre python, et je n’aurais même pas tenter :)



Tu comprends vraiment le concept de liberté : le mixeur de son de ma platine était moche et pas trés pratique : j’ai modifié son apparence pour masquer les mixers inutiles, et renommer les numéros génériques avec un nom utile (TV, Freebox, Playstation…)



Sinon je ne suis pas un fanatique du libre, ça me plait de me dire qu’aucun binaire n’est rentré sur mon PC, mais c’est franchement anecdotique et je ne fais pas une maladie à utiliser un programme fermé si il est bien conçu et qu’il fonctionne ! (ce point m’avait gêné sous debian commencer à ajouter les sources non-free avant de pouvoir faire quoi que ce soit j’ai toujours trouvé ça stupide la liberté c’est aussi d’utiliser du code fermer !)



fofo9012 a dit:


Mon ordre de préférence : D’abord les perfs : tout mon système est compilé avec le -march (entre autre) qui va bien quand je l’ai installé en 2003 j’ai constaté une énorme différence avec mon barton de l’époque (j’étais sous dérivé de debian / knoppix ou peut être déjà ubuntu me rappelle plus) aujourd’hui mon vieux q6600 avec son SSD qui a 10ans me semble au moins aussi réactif que mon Core i5-8365 du boulot du début de l’année.




Merci pour tout ton commentaire.



J’avais voulu tenter Gentoo il y a plus de 10 ans, mais j’ai reculé devant le temps nécessaire à tout recompiler (vu que c’est l’intérêt), et j’avais lu aussi que le gain d’une recompilation était invisible en pratique, car quelques pourcents à tout casser. Du coup ça m’étonne que tu dises avoir vu une différence notable, parce que la compilation par défaut des distributions n’a aucune raison d’engendrer des binaires sensiblement plus lents.




Tu comprends vraiment le concept de liberté : le mixeur de son de ma platine était moche et pas trés pratique : j’ai modifié son apparence pour masquer les mixers inutiles, et renommer les numéros génériques avec un nom utile (TV, Freebox, Playstation…)




Tu as mentionné que sur certaines distribs c’est compliqué de recompiler soi-même (problème de dépendances, erreurs à la pelle), cela dit dans le temps j’avais fait comme toi avec une distrib classique, sans difficulté, effectivement si on a un peu les compétences pour toucher au code c’est un aspect très sympa, cette adaptation précise à ses besoins.


Ce qui m’intéresserait de connaître, je dois dire, c’est les temps d’encodage (h.264 et h.265) avec une telle config :D


L’encodage CPU vidéo ça scale pas vraiment passé une certaine limite. Tu peux en faire plein en // par contre


1536 Go (48x32Go) TruDDR4



Sur le site de scaleway il mettent 1536 Go (48x32Go) TruDDR4. C’est quoi TruDDR4 ?


putain je me louerais bien ça 2 ou 3h juste pour faire des benchs à la con (à commencer par la compilation de FF bien évidemment)


Chacun ses petits plaisirs :D


J’ai déjà eu dans les mains des machines capables de compiler un système Android complet en 15mn… il doit y avoir des records à battre :D


Cet article a été republié ? Y’a des trucs qui ont été modifiés ? Quoi ?



C’est super bizarre de revoir les articles déjà lus dans ses flux, sans savoir ce qui est modifié, te forçant à tout relire si tu veux essayer d’avoir les dernières info :/


Si on a 20To de donnée à traiter, c’est soutenable d’avoir une petite instance à coté pour charger les 20To, puis de louer le monstre, et d’y copier les 20To avant de lancer le calcul ?


Oui, la machine est disponible d’où la remontée avec liens + détails :chinois;


Merci.

Dans ces cas là, serait-il possible d’avoir quelque part :

1/ La date et heure original de l’article
2/ Le changelog, avec la date de l’edit



Ca aiderai beaucoup à la lecture et relecture de ces article :chinois:


Le changelog non, on précise la raison dans un élément quand c’est significatif, là j’aurais du le faire en commentaire et j’ai oublié, my bad. Pour la date, normalement c’est le cas, je verrai avec l’équipe tech pour comprendre pourquoi ça ne l’est pas :chinois:


C’est un peu comme le mainframe d’antan… tu prépares tes cartes perforées à l’avance, avec soin, sachant que tu as un temps très limité et très onéreux…



… bon, pratiquement, le tarif est juste monstrueux et il faudra prévoir le temps de charger ses données sur la bécane en plus du temps de traitement, ce qui sera doublement douloureux…



Acheter le matériel peut revenir au final beaucoup moins cher si on en a besoin pour plus qu’une journée et qu’on le revend après.


Refait ton calcul quand même, parce qu’il faudra plus qu’une journée pour rentabiliser l’achat/revente :D



David_L a dit:


Refait ton calcul quand même, parce qu’il faudra plus qu’une journée pour rentabiliser l’achat/revente :D




Je viens de me rendre compte que je lis trop les sites américains… j’ai interprété la virgule un peu du mauvais côté de l’atlantique… je me disais aussi que c’était très cher… et comme j’ai bossé pour IBM, ce genre de tarif horaire ne me choquait même plus… :oops:


le plaisir de lancer un make -j448 :D


Bof, bientôt un Apple M2 va démonter la grosse Bertha :transpi:


:mdr: (même si elle était facile :D)



OlivierJ a dit:


J’avais voulu tenter Gentoo il y a plus de 10 ans, mais j’ai reculé devant le temps nécessaire à tout recompiler (vu que c’est l’intérêt), et j’avais lu aussi que le gain d’une recompilation était invisible en pratique, car quelques pourcents à tout casser.




Comme je l’ai écrit c’est mon ressenti de 2003 depuis je n’ai pas installé / essayé d’autres distrib depuis (à part les windows imposé au taf évidemment) donc ça a sans doute évolué un peu.
En 2003 on était encore souvent encore en mode i386, les noyaux ne contenaient rien et avaient tous les pilotes en modules ce qui prenaient un temps certain au boot à tout re-détecter à chaque fois.(c’était bien 15sec de silence radio après modprobe :( ) Sur ma gentoo j’ai commencé par tout désactiver puis j’ai activé 1 à 1 les quelques drivers nécessaires directement dans le noyeau, pendant des années je n’avais même pas d’initram.



Un exemple récent de gain : https://www.comptoir-hardware.com/actus/processeurs/42862-optimiser-son-code-pour-tiger-lake-oui-cest-interessant-.html
Ce qu’il faut se rappeler c’est que ces quelques pourcents sont partout donc tendent à se cumuler !


Si tu veux une distribution optimisée de partout pour Intel, il y a Clear Linux sinon :D



ragoutoutou a dit:


Acheter le matériel peut revenir au final beaucoup moins cher si on en a besoin pour plus qu’une journée et qu’on le revend après.




Tu rêves…
Tu imagines le tintouin, même pour une semaine voire un mois, de devoir acheter le matériel, l’installer, et ensuite trouver un nouvel acheteur et s’occuper de le revendre. Tout ça est très bouffe-temps et a un coût.




David_L a dit:


Refait ton calcul quand même, parce qu’il faudra plus qu’une journée pour rentabiliser l’achat/revente :D




En plus.



fofo9012 a dit:


En 2003 on était encore souvent encore en mode i386, les noyaux ne contenaient rien et avaient tous les pilotes en modules ce qui prenaient un temps certain au boot à tout re-détecter à chaque fois.(c’était bien 15sec de silence radio après modprobe :( )




Oui on était en mode i386 vu qu’il n’existait que ça sur PC en pratique :-) Du coup je n’ai pas pigé le sens de cette remarque.
Et sinon ça a justement été un progrès d’avoir les pilotes en module, et c’est toujours le cas sur la plupart des distributions ; dans mon cas le boot a toujours été rapide, tu devais avoir une configuration particulière, un matériel ou un pilote qui faisait une grosse pause (possible par ex pour du SCSI dans certains cas).




Un exemple récent de gain : https://www.comptoir-hardware.com/actus/processeurs/42862-optimiser-son-code-pour-tiger-lake-oui-cest-interessant-.html Ce qu’il faut se rappeler c’est que ces quelques pourcents sont partout donc tendent à se cumuler !




J’ai regardé les tests de Phoronix, ils recompilent les applications, pas le noyau. Ce qui me fait dire que si on est vraiment à quelques pourcents près, on peut s’essayer à recompiler son application préférée ; pour ma part j’estime que même 10 % d’amélioration c’est pas vraiment perceptible en pratique. À la rigueur pour un programme comme Handbrake (ou autre ffmpeg/x264) qui est susceptible de tourner de longues minutes voire des heures.




David_L a dit:


Si tu veux une distribution optimisée de partout pour Intel, il y a Clear Linux sinon :D




J’ai vu les tests Phoronix aussi, on gagne un peu mais c’est pas le jour et la nuit :-) .


Un noyau optimisé, sans module, proprement configuré, offre 20% de performances en plus sur des fonctions serveur. Juste ce qu’il faut. Rien de plus.



Gentoo offre une expérience à même d’obtenir ce que l’on veut, en rolling release.
C’est une philosophie, un abord des système Linux, assez proche de la manière d’autrefois, des débuts de Linux où tout se compilait à la main, mais extrêmement bien intégrée.



La courbe d’apprentissage est lente, semée d’embûches et d’apprentissages, même si on est un vieil habitué des distributions précompilées.



Wax a dit:


Un noyau optimisé, sans module, proprement configuré, offre 20% de performances en plus sur des fonctions serveur. Juste ce qu’il faut. Rien de plus.




D’où sort ce chiffre de 20 % ?
(qui me paraît fantaisiste)