NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

Ils sont rapides !

Avatar de l'auteur
David Legrand

Publié dans

Logiciel

10/10/2018 6 minutes
16

NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

Ces dernières années, NVIDIA a montré que le GPU pouvait être exploité dans bien plus que le jeu vidéo. Un pari qui a surtout pris forme avec CUDA et qui est à l'origine de l'expansion de la société à de nombreux marchés, mais aussi de son succès. RAPIDS doit lui permettre d'aller encore plus loin.

Pour l'ouverture de l'édition 2018 de sa GPU Technology Conference de Munich, NVIDIA a décidé de miser sur une solution logicielle, open source, lui permettant de se creuser un nouveau trou dans les datacenters : RAPIDS.

C'est Jeff Tseng, nouveau patron de l'équipe AI Infrastructure de la société qui nous a présenté cette solution lors d'une rencontre avec quelques journalistes organisée hier soir. Il a d'ailleurs commencé par un aveu : « c'est une solution que nous aurions dû proposer de longue date [...] elle nous a été maintes fois demandée ».  

On se demande en effet pourquoi une telle initiative n'a pas été proposée plus tôt. C'est sans doute pour se faire pardonner que NVIDIA a décidé de miser sur l'open source pour cette solution, distribuée sous licence Apache. C'est aussi une manière de s'assurer d'une adoption rapide (vous l'avez ?), largement portée par de grands partenaires.

Ainsi, Cisco, Dell EMC, HPE, IBM, Lenovo et Pure Storage sont les premiers qui proposeront une solution technique basée sur RAPIDS. Un engouement qui mène à la question principale : RAPIDS, c'est quoi ?

Exploiter le GPU pour le traitement de larges jeux de données

« La consommation et la production de données double chaque année. Face à cela, le CPU et la loi de Moore ont montré leurs limites, ce qui a posé des problèmes » explique Jeff Tseng, qui reprend ici un argumentaire que l'on retrouve souvent dans la bouche du grand patron de NVIDIA : Jen Hsun Huang.

« Au départ, les données étaient traitées de manière classique, dans les espaces de stockage, mais cela n'était pas efficace. On a alors opté pour un traitement dans la mémoire des CPU afin de gagner en efficacité. Des solutions comme Spark sont désormais très utilisées. Ce que RAPIDS permet c'est de faire de même, avec un traitement directement via le GPU, de quoi apporter des gains importants, jusqu'à 50x » avec l'algorithme XGBoost par rapport à une solution purement CPU promet-il.

De manière plus concrète, cette plateforme se compose d'une suite de bibliothèques (cuDF, cuML, cuGraph) qui exploitent CUDA et le GPU pour le traitement de données en masse, par paquets de plusieurs centaines de Go, dans la statistique et le machine learning.

De quoi ajouter « deux secteurs du High Performance Computing (HPC) qui n'en avaient pas encore bénéficié, jusqu'à maintenant » à l'arc de Jen Hsun Huang et ses équipes. Le tout en changeant la vie des data scientists promet la société, non sans une pointe d'humour.

Une solution rendue possible selon NVIDIA grâce à DASK et le travail de Wes McKinney pour le traitement de données dans différents langages au sein de la mémoire, et la parallélisation de code Python. 

L'ouverture de nouveaux marchés rapidement accessibles

La visualisation de données doit suivre, et venir compléter la longue liste de secteurs où le GPU a déjà montré son intérêt ses dernières années, du rendu 3D au deep learning en passant par les traitements mathématiques en tous genres. 

« Des calculs qui prenaient la journée pourront être désormais traités bien plus rapidement » selon Tseng. La société donne quelques exemples comme la détection de fraude dans les systèmes de paiement en ligne, les assistants vocaux, la recommandation, l'analyse de comportement des consommateurs ou la gestion des stocks d'un revendeur.

Dans ce dernier cas, la prévision est un enjeu important, qui implique de prendre en compte une multitude de facteurs comme l'historique des ventes, la météo, les arrivages et autres indicateurs qui peuvent dépendre de chaque typologie de produits. Réduire le temps de traitement peut donc être crucial.

Surtout, s'adresser à ce public sera bien plus rapide que de miser sur la voiture autonome ou la robotique, qui constituent des enjeux et des marchés qui pourront prendre des années à prendre réellement leur envol. Ici, il s'agit surtout de débloquer avec une plateforme logicielle des usages qui peuvent être adressés par du matériel existant.

De plus en plus d'open source chez NVIDIA

L'objectif est donc de voir l'écosystème logiciel s'emparer assez largement de cette solution pour l'intégrer aux différents outils du marché. Ceux des gros éditeurs, mais aussi ceux proposés par la communauté open source. Un travail qui a commencé en amont de l'annonce du jour, ce qui est plutôt une bonne nouvelle.

Apache Spark proposera par exemple une intégration native de RAPIDS via Arrow et le projet Hydrogen. Oracle va l'exploiter au sein de son offre Data Science Cloud. HP et IBM ont aussi évoqué une arrivée au sein de leur offre, sans plus de détails pour le moment. Des clients finaux comme Walmart sont mentionnés. 

Anaconda, BlazingDB, Databricks ou encore Quansight sont également impliqués. L'écosystème Python sera largement concerné avec le support par Pandas ou encore Scikit-learn. Le constructeur a mis en ligne un site dédié à son nouveau projet et propose des conteneurs prêts à être utilisés dans son offre GPU Cloud.


À noter :

Dans le cadre de la réalisation de cet article, nous sommes allés à la rencontre des équipes de NVIDIA à la GTC de Munich. Celle-ci a pris en charge une partie de notre transport, hébergement et restauration sur place. Conformément à nos engagements déontologiques, cela s'est fait sans aucune obligation éditoriale de notre part, excepté le respect des dates d'embargo (NDA), et sans ingérence de la part de NVIDIA.

Écrit par David Legrand

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Exploiter le GPU pour le traitement de larges jeux de données

L'ouverture de nouveaux marchés rapidement accessibles

De plus en plus d'open source chez NVIDIA

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (16)


“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.


Sinon Rapids à tester à l’occasion








teddyalbina a écrit :



“parallélisation de code Python” python et parallèle dans la même phrase ça me f’ra toujours rire, en gros ils ont écrit du code C/C++ qui fait tout le job et pytruc heu ah bah il ne fait rien en fait.





et ?



Sinon ça à l’air pas mal du tout comme outil <img data-src=" />



Tips pour la parallélisation en python: utiliser python 3.7 et asyncio :)


Moi, chuis pas contre une p’tite flame-war sur les langages de programmation, mais je connais pas le Python et mon C/C++ est rouillé.


C’est en RC ça python 3.7 ?


Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.



Si Nvidia arrive à démocratiser l’utilisation des GPU pour les algos plus traditionnels comme les arbres de décision (XGBoost est mentionné dans l’article), alors ça pourrait devenir un très gros marché pour eux…



(ils sont forts, quand même!)








Groupetto a écrit :



Aujourd’hui, de ce que je comprends des gens qui travaillent avec moi, les GPU sont surtout utilisés pour le deep learning.





Ainsi que beaucoup de chose touchant au traitement d’image (fusion, déformation, etc.) et tout calcul pouvant être parallélisable.

Dans mon secteur d’activité (indus médicale) ça fait dans les 10 ans que les GPU sont utilisés dans les calculs.



Estimations à 18 milliards de dollars rien que pour 2018&nbsp; <img data-src=" />&nbsp;


Ca évite/contient les pb de buffer overflow par rapport à du C ?

Ca permet l’objet pour la maintenabilité/complexité des programmes et de faire des éléments en programmation fonctionnelle sur des calculs qui vont gérer des données massives et hétéroclyte et ont donc besoin de typages et de d’algos rigoureux ?



Perso j’en vois plein de raisons de préférer python à C/C++, et ceci sans être développeur python et/ou spécialiste du calcul parallèle donc j’imagine qu’ils savent ce qu’ils font et pourquoi ils le proposent. Non?


Et à quand des drivers OpenSource pour les CG sous Linux ? <img data-src=" />








Ricard a écrit :



Et à quand des drivers OpenSource pour les CG sous Linux ? <img data-src=" />





+1









Ricard a écrit :



Et à quand des drivers OpenSource pour les CG sous Linux ? <img data-src=" />







Qu’est-ce que j’en rêve. Prochaine machine, ça sera sans nVidia pour moi, à chaque mise à jour de leur drivers c’est le chaos. Combien de fois j’ai du refaire le conf parce que X voulait même plus se lancer suite à une mise à jour des drivers… <img data-src=" />

Résultat, je suis resté sur Nouveau, c’est vraiment pas performant, mais c’est stable.



+2


+3








Ricard a écrit :



Et à quand des drivers OpenSource pour les CG sous Linux ? <img data-src=" />





Oublie et achète une CG AMD, tu gagneras du temps…