NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

Ils sont rapides !

Ces dernières années, NVIDIA a montré que le GPU pouvait être exploité dans bien plus que le jeu vidéo. Un pari qui a surtout pris forme avec CUDA et qui est à l'origine de l'expansion de la société à de nombreux marchés, mais aussi de son succès. RAPIDS doit lui permettre d'aller encore plus loin.

Pour l'ouverture de l'édition 2018 de sa GPU Technology Conference de Munich, NVIDIA a décidé de miser sur une solution logicielle, open source, lui permettant de se creuser un nouveau trou dans les datacenters : RAPIDS.

C'est Jeff Tseng, nouveau patron de l'équipe AI Infrastructure de la société qui nous a présenté cette solution lors d'une rencontre avec quelques journalistes organisée hier soir. Il a d'ailleurs commencé par un aveu : « c'est une solution que nous aurions dû proposer de longue date [...] elle nous a été maintes fois demandée ».

On se demande en effet pourquoi une telle initiative n'a pas été proposée plus tôt. C'est sans doute pour se faire pardonner que NVIDIA a décidé de miser sur l'open source pour cette solution, distribuée sous licence Apache. C'est aussi une manière de s'assurer d'une adoption rapide (vous l'avez ?), largement portée par de grands partenaires.

Ainsi, Cisco, Dell EMC, HPE, IBM, Lenovo et Pure Storage sont les premiers qui proposeront une solution technique basée sur RAPIDS. Un engouement qui mène à la question principale : RAPIDS, c'est quoi ?

Notre suivi en direct de la conférence d'ouverture de la GTC Europe 2018

Exploiter le GPU pour le traitement de larges jeux de données

« La consommation et la production de données double chaque année. Face à cela, le CPU et la loi de Moore ont montré leurs limites, ce qui a posé des problèmes » explique Jeff Tseng, qui reprend ici un argumentaire que l'on retrouve souvent dans la bouche du grand patron de NVIDIA : Jen Hsun Huang.

« Au départ, les données étaient traitées de manière classique, dans les espaces de stockage, mais cela n'était pas efficace. On a alors opté pour un traitement dans la mémoire des CPU afin de gagner en efficacité. Des solutions comme Spark sont désormais très utilisées. Ce que RAPIDS permet c'est de faire de même, avec un traitement directement via le GPU, de quoi apporter des gains importants, jusqu'à 50x » avec l'algorithme XGBoost par rapport à une solution purement CPU promet-il.

De manière plus concrète, cette plateforme se compose d'une suite de bibliothèques (cuDF, cuML, cuGraph) qui exploitent CUDA et le GPU pour le traitement de données en masse, par paquets de plusieurs centaines de Go, dans la statistique et le machine learning.

De quoi ajouter « deux secteurs du High Performance Computing (HPC) qui n'en avaient pas encore bénéficié, jusqu'à maintenant » à l'arc de Jen Hsun Huang et ses équipes. Le tout en changeant la vie des data scientists promet la société, non sans une pointe d'humour.

Une solution rendue possible selon NVIDIA grâce à DASK et le travail de Wes McKinney pour le traitement de données dans différents langages au sein de la mémoire, et la parallélisation de code Python.

Recommandations, assistants vocaux, eCommerce : des marchés où NVIDIA va pouvoir se déployer grâce aux travaux sur DASK et de Wes McKiney. CUDF et CUML annoncés #GTC pic.twitter.com/XiFU4HCJ54

— INpact Hardware @ GTC Europe 🇩🇪 (@inpacthardware) 10 octobre 2018

L'ouverture de nouveaux marchés rapidement accessibles

La visualisation de données doit suivre, et venir compléter la longue liste de secteurs où le GPU a déjà montré son intérêt ses dernières années, du rendu 3D au deep learning en passant par les traitements mathématiques en tous genres.

« Des calculs qui prenaient la journée pourront être désormais traités bien plus rapidement » selon Tseng. La société donne quelques exemples comme la détection de fraude dans les systèmes de paiement en ligne, les assistants vocaux, la recommandation, l'analyse de comportement des consommateurs ou la gestion des stocks d'un revendeur.

Dans ce dernier cas, la prévision est un enjeu important, qui implique de prendre en compte une multitude de facteurs comme l'historique des ventes, la météo, les arrivages et autres indicateurs qui peuvent dépendre de chaque typologie de produits. Réduire le temps de traitement peut donc être crucial.

Surtout, s'adresser à ce public sera bien plus rapide que de miser sur la voiture autonome ou la robotique, qui constituent des enjeux et des marchés qui pourront prendre des années à prendre réellement leur envol. Ici, il s'agit surtout de débloquer avec une plateforme logicielle des usages qui peuvent être adressés par du matériel existant.

Une solution compète, pour le calcul (bien plus rapide que le CPU) puis la visualisation des données « vous savez quoi, cette machine sait aussi afficher de belles images » #GTC18 pic.twitter.com/jmZLO8BF5d

— INpact Hardware @ GTC Europe 🇩🇪 (@inpacthardware) 10 octobre 2018

De plus en plus d'open source chez NVIDIA

L'objectif est donc de voir l'écosystème logiciel s'emparer assez largement de cette solution pour l'intégrer aux différents outils du marché. Ceux des gros éditeurs, mais aussi ceux proposés par la communauté open source. Un travail qui a commencé en amont de l'annonce du jour, ce qui est plutôt une bonne nouvelle.

Apache Spark proposera par exemple une intégration native de RAPIDS via Arrow et le projet Hydrogen. Oracle va l'exploiter au sein de son offre Data Science Cloud. HP et IBM ont aussi évoqué une arrivée au sein de leur offre, sans plus de détails pour le moment. Des clients finaux comme Walmart sont mentionnés.

Anaconda, BlazingDB, Databricks ou encore Quansight sont également impliqués. L'écosystème Python sera largement concerné avec le support par Pandas ou encore Scikit-learn. Le constructeur a mis en ligne un site dédié à son nouveau projet et propose des conteneurs prêts à être utilisés dans son offre GPU Cloud.

À noter :

Dans le cadre de la réalisation de cet article, nous sommes allés à la rencontre des équipes de NVIDIA à la GTC de Munich. Celle-ci a pris en charge une partie de notre transport, hébergement et restauration sur place. Conformément à nos engagements déontologiques, cela s'est fait sans aucune obligation éditoriale de notre part, excepté le respect des dates d'embargo (NDA), et sans ingérence de la part de NVIDIA.

Commentaires (16)

teddyalbina Abonné

Le 10/10/2018 à 10h 26

“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.

Le 10/10/2018 à 10h 40

Sinon Rapids à tester à l’occasion

AltreX

Le 10/10/2018 à 11h 41

teddyalbina a écrit :

“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.

et ?

Sinon ça à l’air pas mal du tout comme outil " />

bonnegent

Le 10/10/2018 à 12h 39

Tips pour la parallélisation en python: utiliser python 3.7 et asyncio :)

le podoclaste

Moi, chuis pas contre une p’tite flame-war sur les langages de programmation, mais je connais pas le Python et mon C/C++ est rouillé.

MoonRa

Le 10/10/2018 à 13h 13

C’est en RC ça python 3.7 ?

Groupetto Abonné

Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.

Si Nvidia arrive à démocratiser l’utilisation des GPU pour les algos plus traditionnels comme les arbres de décision (XGBoost est mentionné dans l’article), alors ça pourrait devenir un très gros marché pour eux…

(ils sont forts, quand même!)

Prezspurer

Le 10/10/2018 à 14h 21

Groupetto a écrit :

Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.

Ainsi que beaucoup de chose touchant au traitement d’image (fusion, déformation, etc.) et tout calcul pouvant être parallélisable.

Dans mon secteur d’activité (indus médicale) ça fait dans les 10 ans que les GPU sont utilisés dans les calculs.

David_L Abonné

Le 10/10/2018 à 14h 38

Estimations à 18 milliards de dollars rien que pour 2018  " /> 

yvan Abonné

Le 10/10/2018 à 14h 46

#10

Ca évite/contient les pb de buffer overflow par rapport à du C ?

Ca permet l’objet pour la maintenabilité/complexité des programmes et de faire des éléments en programmation fonctionnelle sur des calculs qui vont gérer des données massives et hétéroclyte et ont donc besoin de typages et de d’algos rigoureux ?

Perso j’en vois plein de raisons de préférer python à C/C++, et ceci sans être développeur python et/ou spécialiste du calcul parallèle donc j’imagine qu’ils savent ce qu’ils font et pourquoi ils le proposent. Non?

Ricard

Le 10/10/2018 à 19h 43

#11

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

OuicheLorraine

Le 10/10/2018 à 20h 17

#12

Ricard a écrit :

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

+1

zefling Abonné

Le 10/10/2018 à 21h 51

#13

Ricard a écrit :

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

Qu’est-ce que j’en rêve. Prochaine machine, ça sera sans nVidia pour moi, à chaque mise à jour de leur drivers c’est le chaos. Combien de fois j’ai du refaire le conf parce que X voulait même plus se lancer suite à une mise à jour des drivers… " />

Résultat, je suis resté sur Nouveau, c’est vraiment pas performant, mais c’est stable.

amine548

Le 10/10/2018 à 21h 52

#14

propositionjoe

Le 11/10/2018 à 05h 08

#15

Pierre_ Abonné

Le 11/10/2018 à 08h 33

#16

Ricard a écrit :

Et à quand des drivers OpenSource pour les CG sous Linux ? " />

Oublie et achète une CG AMD, tu gagneras du temps…

NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

Ils sont rapides !

Exploiter le GPU pour le traitement de larges jeux de données

L'ouverture de nouveaux marchés rapidement accessibles

De plus en plus d'open source chez NVIDIA

Tiens, en parlant de ça :

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Sommaire de l'article

Introduction

Exploiter le GPU pour le traitement de larges jeux de données

L'ouverture de nouveaux marchés rapidement accessibles

De plus en plus d'open source chez NVIDIA

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (16)