C'est le grand jour pour AMD qui vient de dévoiler sa nouvelle gamme de processeurs pour serveurs, les EPYC 7000. Ceux-ci doivent permettre au constructeur de mener la vie dure à Intel dans un domaine à forte marge.
Alors qu'Intel vient d'ouvrir les précommandes pour certains de ses processeurs haut de gamme X-Series, de 4 à 10 cœurs, AMD a décidé d'organiser une édition de ses Tech Day dans ses locaux d'Austin (Texas) afin de nous en dire plus sur son offre dédiée aux datacenters : les EPYC 7000 (ex-Naples).
La date avait été évoquée récemment, et la stratégie déjà développée (voir notre analyse). L'annonce du jour concerne donc principalement les caractéristiques et les prix de ces produits qui doivent permettre au Texan de revenir dans les serveurs et s'y faire enfin une place de choix.
Commençons donc par le commencement, la liste des produits annoncés :
Comme vous pouvez le voir dans ce tableau, on retrouve 12 références. Trois sont prévues pour un fonctionnement sur un seul socket, neuf sur deux sockets. N'allez pas chercher de grande stratégie dans la dénomination, celle-ci se veut simple (mais pas forcément claire) :
- 7 : numéro de gamme
- 25 à 60 : indicateur de performances
- 1 : numéro de génération
- P : pour les modèles 1P
Côté tarif, nous n'avons pas la grille complète et détaillée, pour ces puces qui sont annoncées comme disponibles dès aujourd'hui. Il est néanmoins question de 475 dollars au minimum pour l'EPYC 7251 à huit cœurs, 650 dollars pour le 7281 à 16 cœurs, 1 850 dollars pour le 7401 à 24 cœurs et 3 400 dollars pour le 7501 à 32 cœurs.
Les modèles « P » ont l'avantage d'être plus accessibles, et parfois de manière assez marquée :
- EPYC 7351P (16C) : 750 dollars soit 46,88 dollars par cœur
- EPYC 7401P (24C) : 1 075 dollars soit 44,79 dollars par cœur
- EPYC 7551P (32C) : 2 100 dollars soit 65,625 dollars par cœur
On notera tout de même qu'aucun modèle n'est proposé avant le 7351P à 16 cœurs, le but étant surtout d'avoir des solutions à la fois performantes, mais aussi limitées sur leur possibilité de fonctionner en duo contre une réduction parfois drastique du prix : pas moins de 42 % dans le cas du 7401P par rapport au 7401 alors que leurs caractéristiques sont identiques.
AMD est conscient que sa stratégie doit passer par des tarifs agressifs, ce qui sera le seul moyen lui permettant de battre Intel dans toutes les situations. La société profite pour cela de son design MCM, EPYC n'étant pas composé d'une énorme puce, mais bien de quatre dies Zeppelin utilisés de manière conjointe et reliés par des liens Infinity Fabric.
Lors d'un échange direct avec Lisa Su, celle-ci n'a d'ailleurs pas souhaité nous confirmer que les puces étaient parfaitement identiques, mais seulement qu'elles bénéficiaient au moins d'un traitement particulier, notamment pour ce qui est de leur validation, dans le cadre d'une intégration à l'offre EPYC.
Elles bénéficient aussi de fonctionnalités supplémentaires, qu'il s'agisse de la gestion de l'énergie en passant par le chiffrement complet de la mémoire et autres solutions d'isolation des machines virtuelles.
Peu de segmentation, une offre évolutive
Dans les grandes lignes, ces processeurs reprennent donc les avantages de la gamme et de l'architecture des modèles Ryzen (ainsi que l'absence de support d'AVX-512). C'est notamment le cas de la non segmentation des fonctionnalités, le tout avec un maximum de 32 cœurs.
Pour cela, ce sont quatre dies qui sont combinés au sein d'un même package, ce qui permet de proposer huit canaux de DDR4 (16 DIMM, 2 To) et 128 lignes PCIe 3.0, le tout avec un chipset intégré. Une approche qui permet de miser sur des solutions à forte densité avec un seul socket (1S), et donc des cartes mères plus simples et plus compactes.
Ceux qui ont besoin de toujours plus de cœurs peuvent opter pour une utilisation en duo afin de grimper à 64 (soit 128 threads). Les lignes PCIe 3.0 d'EPYC ont alors la possibilité de fonctionner comme des liens Infinity Fabric. Ils passent ainsi de 8 GT/s à 10,6 GT/s. 128 étant utilisées pour relier les puces, tout en gardant 128 lignes PCIe 3.0 à disposition de la plateforme.
Des avantages certains alors qu'Intel se limite pour le moment à 22 cœurs et 40 lignes PCIe 3.0, même sur son Xeon E5-2699A v4 (LGA2011) annoncé à 4 938 dollars, soit le représentant le plus puissant au sein de ses modèles 2S. Une puce qu'AMD dit être capable de mettre au tapis en termes de puissance, de coût pur ou total, de consommation, etc.
Un vrai coup dur pour le géant de Santa Clara qui va sans doute devoir faire le dos rond au moins quelques mois (années ?). Il devrait dévoiler dans les prochains mois ses fameux Xeon Scalable (bronze, argent, or et platine), mais il faudrait que les évolutions soient nombreuses afin d'apporter une réponse efficace. Reste le marché 4S/8S, qui n'intéresse pas AMD pour le moment, celui-ci représentant une part très minoritaire.
Comme pour le lancement des X-Series sur le marché grand public, il y a fort à parier que cela ne sera pas suffisant sur le court terme, même si la société peut compter sur ses nombreux partenariats et ses équipes commerciales très présentes sur le terrain pour éviter un drame.
Plus, pour moins
Lors de notre passage à Austin, nous avons ainsi eu droit à deux démonstrations assez représentatives de ce que veut proposer AMD à ses futurs clients, en leur annonçant que ses processeurs peuvent battre des solutions 1S mais aussi 2S de la concurrence. Bref, le message est clair : vous pouvez faire mieux, de manière plus efficace, et pour moins cher.
Il a notamment été question de deux groupes de quatre serveurs (2S), disposant chacun de machines virtuelles dotées de quatre cœurs afin de faire tourner des bases de données Cassandra. Les performances affichées étaient identiques, mais sur la solution Ryzen il était possible de faire tourner 16 VM, contre 11 du côté de la solution Intel, du fait de la présence de 64 cœurs plutôt que 44.
Autre solution évoquée : une analyse via SPARK, Hortonworks Data Platform (HDP) 2.6 et OpenJDK 1.8 d'un jeu de données de 220 Go (en k-moyennes) sous Red Hat Linux Entreprise Linux 7.3. Un groupe de trois serveurs EPYC étaient suffisants pour offrir des performances légèrement meilleures à celle d'un groupe de quatre serveurs Intel, pour un coût total bien moindre.
Bien entendu, ces démonstrations servent avant tout à vanter le discours maison, mais si de tels résultats se confirment lorsque les clients potentiels viendront appliquer leurs besoins, AMD pourrait bien réussir son pari de revenir en force dans le marché des serveurs. Et ce, sans forcément attendre que les choses se fassent petit à petit.
Une plateforme prévue pour trois générations
Et la société l'affirme : son offre est là pour durer et son plan est sur le long terme. Cela se traduit par un élément simple : la feuille de route. « Les analystes adorent les roadmaps alors nous leur en avons fourni une » détaillait non sans ironie Scott Aylor, vice-président en charge des solutions pour entreprises lors de la conférence principale du Tech day.
Les déclinaisons en 7 nm et 7 nm+, Milan et Rome, sont d'ores et déjà prévues, et attendues entre 2018 et 2020. Mais de manière plus concrète, c'est surtout la construction de la plateforme qui a été anticipée. Ainsi, ces deux prochaines générations pourront fonctionner sur le même socket à 4094 broches que celle qui est annoncée aujourd'hui.
Une puce pour les convaincre tous
AMD vante aussi ici son approche MCM, une solution modulaire qui semble avoir été pour l'équipe la grande idée derrière EPYC. Celle qui lui permet d'afficher tant d'éléments supérieurs à l'offre d'Intel, tout en ouvrant la voie à des économies substantielles au niveau de l'organisation de sa production. « Ce genre de solution est vouée à se répandre sur le marché » estimait l'un des ingénieurs en chef présent lors de la présentation d'AMD.
Surtout, cela évite d'avoir à trouver des solutions pour construire une puce gigantesque. « Sans notre design MCM nous n'aurions pas pu obtenir de tels résultats » précise un autre intervenant, qui était à deux doigts de nous déclarer que cela lui permettait de rendre la loi de Moore « Great again ».
« Infinity fabric nous permet de la faire perdurer de la bonne manière. [...] notre but avec Zen n'était pas de se battre face à Broadwell, mais bien de faire face aux prochains produits de la concurrence » ajoutent Scott Aylor, le vice-président en charge des solutions entreprise d'AMD et Gerry Talbot, venu nous détailler le fonctionnement de ces fameux liens qui sont une version améliorée d'HyperTransport.
Infinity Fabric et flexibilité
On apprendra au passage que la connexion d'un die à un autre se fait (en bi-directionnel) à 42,6 Go/s par lien, soit 170 Go/s au total (2 pJ/bit de TDP), contre 37,9 Go/s par lien soit 152 Go/s (9 pJ/bit de TDP) entre les sockets. Ils sont organisés de telle manière qu'un accès d'un cœur à un autre demandera deux hops dans le pire des cas.
Malheureusement, le constructeur reste encore assez silencieux sur les questions de latence. Il faudra donc voir si cela s'avèrera suffisant dans la pratique, AMD semblant en être convaincue.
Un autre avantage réside dans la présence de 128 lignes PCIe 3.0 qui offrent une bande passante de 256 Go/s mais surtout, un accès direct au CPU et à de nombreux composants. Ils disposent d'une assez grande flexibilité de configuration, avec deux limites : jusqu'à huit PCIe par groupe x16 et huit périphériques S-ATA (x1).
Ainsi, pas besoin de switchs PCIe et autres liens passants par un chipset qui ajoutent de la latence et complexifient les échanges. Un point crucial dans certains domaines. On peut ainsi connecter jusqu'à six GPU en x16 ou 32 SSD NVMe en x4, sous réserve de disposer de racks qui peuvent accueillir tout ce petit monde.
HP Entreprise (HPE) a profité de ce lancement pour dévoiler de son côté le Cloudline CL3150 G4 qui peut accueillir 24 unités de stockage NVMe, soit 76,8 To de capacité. Lors d'une démonstration sous Flexible I/O 2.16 avec un modèle EPYC 7601 (32C), 8x 32 Go de DDR4 @ 2666 MHz et 24 SSD Samsung PM1725a de 1,6 To, sous Ubuntu 17.04 (noyau 4.10), il était possible d'atteindre :
- 9 178 000 IOPS en lecture
- 7 111 000 IOPS en écriture
- 53,3 Go/s de débit
Ce, alors que les chiffres seraient plutôt situés dans les 4,1 à 7,1 millions d'IOPS avec une solution Intel équipée de deux processeurs (chacun étant capable de gérer 12 SSD NVMe via un switch PCIe) selon HPE.
Le chipset intégré propose de son côté quatre ports USB 3.0 et tous les éléments habituels (I2C, SPI, GPIO, etc.). C'est un peu chiche, mais sur un serveur cela sera le plus souvent suffisant. Le sous-système mémoire pouvant fonctionner jusqu'à 2 667 MHz, il peut offrir une bande passante maximale de 171 Go/s par socket et jusqu'à 2 To.
Bref, AMD cherchait surtout à convaincre que si les produits grand public ont été sa priorité commerciale, les résultats étant plus directs sur ce marché, c'est bien les serveurs que la société avait en tête au moment de la conception.
Un coprocesseur dédié à la sécurité (TrustZone)
Et le constructeur de revenir sur les avantages de l'architecture Zen concernant ce marché, vantant au passage une forte réduction de la latence dans des usages comme la virtualisation par rapport à Bulldozer. Mais aussi sur la présence d'un coprocesseur ARM Cortex-A5 dédié à la sécurité, désormais connu sous le nom d'AMD Secure Processor.
Pour rappel, ce dispositif n'a rien de nouveau et vient s'opposer à TXT d'Intel via une implémentation de TrustZone. L'idée est de permettre d'effectuer des opérations et de générer/stocker des clefs de chiffrement dans un espace sécurisé (OS/Kernel) et isolé du reste du système, ce qui vient accompagner la présence de deux unités AES (aussi en charge du support matériel de SHA-1/SHA-256) au sein de l'architecture.
Il permet d'assurer un démarrage avec validation matérielle des éléments de sécurité, le processeur ne s'activant de manière complète que si tout est ok. Un dispositif qui pourra aussi être appliqué aux machines virtuelles avec une validation de leur image, à travers une empreinte cryptographique (Root of Trust).
Un chiffrement complet de la mémoire système
Il est aussi question du chiffrement de la mémoire du système à la volée (SME) implémentée au niveau du contrôleur (MMU), une solution détaillée dans un livre blanc l'année dernière et qui est désactivable. Si AMD concède qu'elle n'est pas totalement sans impact sur les performances, elle milite pour sa mise en place et évoque un chiffre de 1 %.
« Nous avions un objectif de 3% et l'impact constaté est bien en dessous de cela. Mais surtout, cela est une concession assez faible au regard de la demande pour plus de sécurité dans les datacenters ». Une affirmation qui ne sera sans doute pas contredite par la multitude d'affaires récentes sur la question.
L'idée est ainsi d'éviter les attaques par accès physique, ou même d'un tiers qui viendrait analyser la mémoire de la machine. AMD et Dell organisaient ainsi la démonstration d'un formulaire en ligne avec accès sécurisé, où un attaquant pourrait venir récupérer les informations de l'utilisateur en « scrapant » la mémoire, sans que ce dernier ne puisse avoir la moindre idée de ce qui est en train de se passer.
Vous la retrouverez dans cette vidéo :
AMD indique que sa solution étant directement implémentée au niveau du contrôleur mémoire, elle ne nécessite pas de modification particulière, contrairement à des solutions comme SGX d'Intel avec lequel les développeurs peuvent aller créer des enclaves dans lesquelles sont protégées des portions de code ou des données.
Protection et isolation des machines virtuelles
Dans cette configuration, le système dispose d'une clef de chiffrement qui lui est propre. Il pourra en être autrement dans le cas de la virtualisation avec SEV.
Ici, chaque machine virtuelle ou conteneur (mais aussi des groupes) peut être isolé avec une clef spécifique. Une fonctionnalité qui doit arriver dans un second temps via une mise à jour logicielle. Cela permet aussi d'isoler l'hyperviseur du reste, ou de faire cohabiter des machines virtuelles qui profitent du chiffrement avec d'autres qui en sont dépourvues.
Une migration d'un serveur vers un autre est aussi possible (Secure Move), avec un déchiffrement de la VM, transférée avec un chiffrement asymétrique vers le serveur distant, avant un chiffrement via une nouvelle clef locale. Un dispositif qui nécessitera d'avoir deux serveurs EPYC, et surtout des applications compatibles. Cela est en effet seulement prévu pour des mises à jour prochaines d'outils comme ceux de VMWare par exemple.
Des solutions qui devraient intéresser ceux qui proposent de la machine virtuelle en batterie pour des usages qu'ils veulent sécuriser, où l'isolation peut être essentielle. C'est notamment un point que nous avions soulevé lors de notre discussion avec Emmanuel Freund de Shadow la semaine dernière (voir notre analyse).
Un TDP plus élevé que Ryzen...
Comme nous avons pu le voir précédemment, un EPYC 7251 propose 8 cœurs entre 2,1 et 2,9 GHz, pour un TDP de 120 watts. Des chiffres étonnants puisqu'un modèle Ryzen 7 1700 annonce de 3 à 3,7 GHz pour 65 watts de TDP.
Lors de notre rencontre avec les équipes d'AMD nous leur avons posé la question concernant cette différence. Et il nous a été confirmé que le TDP supérieur s'expliquait notamment en raison de la partie « Uncore » plus fournie que dans une puce Ryzen avec un seul die. Cela peut avoir aussi une autre explication.
Car nous avons demandé comment était exactement organisée une référence comme l'EPYC 7251 afin de proposer le bon nombre de canaux mémoire et de lignes PCIe 3.0. Et comme nous nous y attendions, il est bien question de quatre dies avec deux CCX contenant chacun un cœur actif. Un dispositif qui pourra sembler un peu... overkill.
Cette puce n'est néanmoins pas sans intérêt et pourra être utile dans certains cas, comme ceux qui ont besoin de connecter de nombreux éléments au processeur, mais pas forcément d'un nombre de cœurs important ou d'une puissance CPU folle. Cela peut aussi être une bonne manière de réduire les frais de licence lorsque la facturation se fait au nombre de cœurs plutôt qu'au nombre de sockets par exemple.
Vous aurez aussi noté que certaines références disposent de deux TDP différents. Ceux-ci dépendent de la fréquence choisie pour la mémoire : 2 400 MHz ou 2 666 MHz.
... mais aussi plus flexible
Lors de son intervention, Sam Naffziger qui est en charge des questions relatives à la gestion de l'énergie nous a aussi confirmé qu'EPYC disposait de deux dispositifs spécifiques concernant la gestion du TDP. Il est ainsi possible de choisir entre deux modes au démarrage de la machine : un déterminisme par la performance ou la puissance, afin de gérer les différences qui peuvent exister d'une puce à l'autre, notamment en fonction du serveur et de son environnement.
L'utilisateur pourra opter pour le premier mode s'il veut obtenir les meilleures performances et les fréquences annoncées quelle que soit la situation, et adapter la gestion de l'énergie en fonction de l'environnement. À l'inverse, il peut préférer opter pour une puissance correspondant à ce qui est annoncé par AMD, mais avec des performances qui peuvent varier.
Ce choix est important dans le domaine des serveurs où les contraintes des clients peuvent amener à faire des choix différents selon les cas. Il sera d'ailleurs aussi possible d'adapter le TDP pour une même référence (OPN), avec une marge de manœuvre à la hausse ou à la baisse selon les besoins.
Ici, c'est donc le rapport performances/watts qui évoluera de manière plus ou moins intéressante en fonction du besoin et des réglages. Une pratique déjà en place chez Intel, qui l'utilise notamment dans le domaine des ordinateurs portables.
« EPYC ce n'est pas la recherche de la faible consommation, mais de l'efficacité »
AMD en profite pour vanter ici son approche de régulation de la tension, qui est différente pour chaque cœur. En effet, dans une puce avec quatre dies différents, où les variations peuvent être importantes au niveau de ce que chacun peut supporter comme tension pour une même fréquence, il est important d'effectuer une distinction, ce qui n'était pas le cas auparavant.
Ainsi, ce n'est pas le plus lent des cœurs qui définit la tension de la puce, celle-ci étant adaptée en temps réel pour chaque élément. De quoi assurer des économies d'énergie substantielles. Le tout peut se faire par pas de 2 mV (25 MHz pour la fréquence), l'unité de contrôle Infinity Fabric adaptant l'ensemble jusqu'à 1 000 fois par seconde.
Au final, l'idée d'AMD est de vanter une approche où le constructeur propose un processeur et une plateforme très denses, plus performants que la concurrence grâce à la présence de 32 cœurs, mais aussi plus efficaces d'un point de vue énergétique (attention tout de même aux échelles trompeuses des graphiques).
L'écart peut ainsi s'avérer important, mais surtout il s'ajoute aux autres arguments qui peuvent jouer sur le TCO (Total Cost of Ownership), il peut faire mouche chez les décideurs dont le besoin correspond à ce que propose EPYC.
AMD se félicite de ses victoires récentes...
Mais rien ne se fera sans le soutien de gros partenaires, et AMD le sait. La société a donc décidé de célébrer une fois de plus des annonces qui ont été faites récemment. Que ce soit l'intégration au sein de la Xbox One X, dans les iMac et Macbook Pro d'Apple ou même dans de nombreuses solutions de constructeurs grâce au succès de Ryzen.
Le cas n'a pas été évoqué spécifiquement, mais c'est bien l'exemple de Dell qui était dans toutes les têtes. Après avoir dévoilé une machine pour joueurs et des tout-en-un au sein de sa gamme Inspiron, le géant du PC a fait de même à travers sa marque de luxe : Alienware. Les Area-51 ne seront plus exclusifs à Intel au niveau des processeurs, et cela va sans doute changer bien des choses dans l'image d'AMD.
Cela aura coûté une exclusivité temporaire au Texan (voir notre analyse), mais il faut bien cela pour vaincre des inerties ancrées depuis des années. Surtout dans le monde de l'intégration où les partenariats avec Intel sont très présents, et peuvent prendre la forme de lourds co-investissements marketing.
... et doit se préparer à occuper le terrain
Et ce partenariat avec Dell, AMD est bien décidée à le reproduire avec EPYC dans le monde des serveurs. La société a sans doute retenu des leçons de ses expériences passées et communique sur le bon accueil de l'écosystème, tant au niveau matériel que logiciel. Ainsi, tant les compilateurs et les outils de développement (gcc, llvm, Java, Visual Studio) que les OS et les hyperviseurs seraient parés pour l'arrivée des EPYC 7000.
Ici, le but est sans doute de rassurer après un lancement compliqué de Ryzen. La stratégie est d'ailleurs la même du côté des performances : pour lutter à armes inégales face à un Intel pour qui tout est optimisé, AMD déballe de nombreux cœurs pour un tarif défiant toute concurrence et l'affirme : dans les différents scénarios, que les deux se battent à armes égales ou non, c'est EPYC qui l'emporte.
De quoi convaincre de nombreux partenaires de sauter le pas, mais AMD devra aussi se battre sur le terrain de manière plus concrète : remporter les gros contrats demande du temps, de l'énergie et du personnel au niveau local. Une stratégie qui ne peut que s'inscrire sur le long terme. Et il faudra commencer par faire oublier la fin difficile de l'Opteron, et convaincre qu'EPYC est réellement là pour durer.
C'est là une des forces d'Intel. De celles qui permettent de nouer des partenariats durables comme celui que l'on constate avec OVH en France par exemple depuis quelques années. Changer la donne à ce niveau sera complexe, quelle que soit la pertinence ou les performances de l'architecture Zen dans le monde du serveur.
AMD a donc profité de la journée d'hier pour inviter ses partenaires, et surtout en faire monter de nombreux sur scènes. Un scénario là aussi déjà vu au Computex. Chacun n'avait pas forcément grand-chose d'exceptionnel à dire, mais le message était surtout celui d'une arrivée prochaine d'EPYC un peu partout, et surtout chez de grands noms du secteur.
Microsoft sera ainsi le premier à proposer ces puces dans son offre Azure (mais pas le seul nous précise-t-on), tout comme Baidu ou 1&1. Et ce alors que Dell, HPE ou même de nombreux constructeurs évoquent l'arrivée de racks et autres tours permettant d'accueillir EPYC. Si la disponibilité est immédiate, les systèmes complets arriveront dans la seconde moitié de l'année, sans doute d'ici la rentrée.
Prochaines étapes : Vega et Threadripper
Ceux qui attendent Threadripper, la version grand public limitée à 16 cœurs, tireront quelques éléments de ces annonces et de la grille de tarif affichée. Tout d'abord que les puces équivalentes sont toutes proposées entre 600 et 1100 dollars... mais aussi que leur fréquence de base se situe entre 2,1 et 2,4 GHz, avec une fréquence maximale entre 2,7 et 2,9 GHz.
Si cela semble confirmer les premières estimations en termes de prix (849 dollars), il faut espérer que les fréquences seront tout de même un peu plus pêchues. Mais on devrait en apprendre un peu plus d'ici le mois prochain. En effet, les premières précommandes sont attendues pour le 27 juillet et les premiers tests (avec la disponibilité ?) pour le 10 août.
D'ici là, c'est un autre produit d'AMD qui sera mis sur le marché : la Radeon RX Vega Frontier Edition sur laquelle on sait encore bien peu de choses à moins d'une dizaine de jours de son lancement. Elle sera d'ailleurs suivie par la Radeon MI25 annoncée pour juillet. Nous avons évoqué son cas dans une actualité dédiée.
À noter :
Cet article a été rédigé dans le cadre du Tech Day d'AMD organisé à Austin du 19 au 21 juin, où nous avons été conviés par la société. Celle-ci a pris en charge nos billets d'avion, notre hébergement et la restauration sur place. Conformément à nos engagements déontologiques, cela s'est fait sans aucune obligation éditoriale de notre part, excepté le respect des dates d'embargo (NDA), et sans ingérence de la part d'AMD ou de son agence de communication.