Cela fait maintenant plusieurs mois que Scaleway travaille sur un projet de serveur « monstre » basé sur une plateforme Intel lui permettant d'obtenir 224 cœurs au sein d'une même machine. Elle vient d'être mise en ligne, nous avons pu obtenir certains détails et y avoir accès.
Chez les fournisseurs de service de Cloud (CSP), l'heure est aux machines extrêmes. Il y a peu, AWS dévoilait ses instances P4d à 8 GPU A100 de NVIDIA, permettant de monter des clusters en contenant plus de 4 000. De son côté, Scaleway mise plutôt sur les besoins lourds en puissance CPU avec l'offre qu'il vient de dévoiler.
Nous l'évoquions dès cet été, la société ayant annoncé qu'elle préparait une machine exploitant des Xeon Cascade Lake d'Intel : 8x 28 cœurs, 448 threads, 1,5 To de mémoire. Depuis, le projet a évolué, s'est finalisé. Il y a quelques jours, le compte Twitter évoquait un lancement commercial, nous avons donc demandé à en savoir plus.
25 Gb/s, 448 threads, 20 To de stockage et... 7,5 To de mémoire
L'entreprise évoque rien de moins que le serveur bare metal « le plus puissant du monde »... disponible à l'heure. Rien n'est en effet virtualisé, vous accédez à la machine complète tant que vous payez l'accès.
L'hébergeur propose déjà une gamme complète de bare metal à la demande, de 0,159 à 1,724 euro de l'heure. Pour ce serveur, ça grimpe à 29,999 euros de l'heure (un clin d'œil à la maison mère et à Free ?). Pour ceux qui voudraient des engagements plus longs, ce sera possible dans un second temps nous confirme-t-on chez Scaleway.

Mais pour ce prix, que propose cette instance UP-BM2-XL ? Hébergée au sein de DC5 (Zone PAR2), elle exploite 8 Xeon Platinum 8280 d'Intel. Chacun dispose de 28 cœurs (56 threads) cadencés entre 2,7 et 4 GHz. Ils embarquent 38,5 Mo de cache et trois liens UPI pour leur interconnexion. Leur TDP est de 205 watts.
Reposant sur l'architecture Cascade Lake, ils ouvrent droit à toute la panoplie de fonctionnalités maison : Deep Learning Boost, AVX, AVX2, AVX-512 (deux unités FMA), vPro, RDT, VMD, etc. Tous les détails sont par ici. Surtout, ils gèrent la mémoire persistante Optane (DCPMM). 6 To sont intégrés en plus des 1,5 To de DDR4, soit 7,5 To au total.
Pour rappel, Optane permet d'obtenir une latence et des débits en lecture proche de la mémoire avec le débit en écriture d'un stockage Flash. Utilisé sous la forme de DIMM comme c'est le cas ici, il peut être exploité comme de la mémoire classique, la DDR4 faisant alors office de cache. Ou directement accessible à certaines applications (App Direct). Un mélange des deux peut également être exploité (dual mode). Vous trouverez plus de détails par ici.
Le tout est monté dans un serveur Lenovo (ThinkSystem SR950). Côté stockage, il est question de 6x 3,2 To de SSD NVMe (DC P461). Mais aussi de 2x 800 Go de SSD (PM1645) avec RAID matériel (530-8i PCIe 12 Gb). La bande passante est de 10 Gb/s, elle grimpe à 25 Gb/s dans une « édition » spéciale, plus chère : 44,999 euros de l'heure.
La machine est certifiée VMWare et SAP-HANA. Solution bare metal oblige, on peut y accéder via IPMI/iKVM.
De la puissance CPU brute à la demande
Selon Scaleway, ce serveur se destine « aux calculs intensifs à la demande, aux bases de données in-memory ou transactionnelles et à tous les workloads ne permettant pas un scaling horizontal ».
De fait, il sera idéal pour ceux voulant monter une instance, effectuer un calcul puis obtenir un résultat le plus rapidement possible et n'ayant un besoin que de quelques dizaines d'heures par mois. De quoi accéder à un niveau de puissance très élevé à moindres frais, un seul Xeon Platinum 8280 étant facturé 10 009 dollars par Intel.
Nous l'avons par exemple utilisé pour compiler la dernière version de Blender (hors dépendances) en... moins de 15 secondes. Pour le processus complet, il faut 171 secondes, tout le reste du temps étant passé à des calculs annexes sur un seul cœur. Autant dire qu'il faudra trouver des charges plus lourdes pour alimenter la bête.
Même un rendu Blender n'arrive pas à constamment alimenter le CPU, il faut trouver plus lourd
Même chose pour le rendu de la scène Cosmos Laundromat, pourtant assez lourde, mais dont les 1 728 tuiles sont calculées en à peine 70 secondes, et encore, sans arriver à remplir constamment les CPU à 100 %. Le traitement complet de la scène demandant là encore trois minutes environ avec tout le traitement mono-CPU.
Petit bonus pour ceux qui aiment nos tests sous OpenSSL (RSA 4096 bits) :
Signatures/s :
- 1 thread : 290
- 448 threads : 54 776
Vérifications/s :
- 1 thread : 18 628
- 448 threads : 3 617 518
En moyenne, on obtient ainsi un score équivalent à 167 cœurs Zen 3 d'AMD (selon les résultats d'un 5600X).