NVIDIA dévoile la plateforme open source RAPIDS : Dell EMC, HPE, IBM et Oracle comme partenaires

Ils sont rapides ! 16
Accès libre
image dediée
Développeurs
David Legrand

Ces dernières années, NVIDIA a montré que le GPU pouvait être exploité dans bien plus que le jeu vidéo. Un pari qui a surtout pris forme avec CUDA et qui est à l'origine de l'expansion de la société à de nombreux marchés, mais aussi de son succès. RAPIDS doit lui permettre d'aller encore plus loin.

Pour l'ouverture de l'édition 2018 de sa GPU Technology Conference de Munich, NVIDIA a décidé de miser sur une solution logicielle, open source, lui permettant de se creuser un nouveau trou dans les datacenters : RAPIDS.

C'est Jeff Tseng, nouveau patron de l'équipe AI Infrastructure de la société qui nous a présenté cette solution lors d'une rencontre avec quelques journalistes organisée hier soir. Il a d'ailleurs commencé par un aveu : « c'est une solution que nous aurions dû proposer de longue date [...] elle nous a été maintes fois demandée ».  

On se demande en effet pourquoi une telle initiative n'a pas été proposée plus tôt. C'est sans doute pour se faire pardonner que NVIDIA a décidé de miser sur l'open source pour cette solution, distribuée sous licence Apache. C'est aussi une manière de s'assurer d'une adoption rapide (vous l'avez ?), largement portée par de grands partenaires.

Ainsi, Cisco, Dell EMC, HPE, IBM, Lenovo et Pure Storage sont les premiers qui proposeront une solution technique basée sur RAPIDS. Un engouement qui mène à la question principale : RAPIDS, c'est quoi ?

Exploiter le GPU pour le traitement de larges jeux de données

« La consommation et la production de données double chaque année. Face à cela, le CPU et la loi de Moore ont montré leurs limites, ce qui a posé des problèmes » explique Jeff Tseng, qui reprend ici un argumentaire que l'on retrouve souvent dans la bouche du grand patron de NVIDIA : Jen Hsun Huang.

« Au départ, les données étaient traitées de manière classique, dans les espaces de stockage, mais cela n'était pas efficace. On a alors opté pour un traitement dans la mémoire des CPU afin de gagner en efficacité. Des solutions comme Spark sont désormais très utilisées. Ce que RAPIDS permet c'est de faire de même, avec un traitement directement via le GPU, de quoi apporter des gains importants, jusqu'à 50x » avec l'algorithme XGBoost par rapport à une solution purement CPU promet-il.

De manière plus concrète, cette plateforme se compose d'une suite de bibliothèques (cuDF, cuML, cuGraph) qui exploitent CUDA et le GPU pour le traitement de données en masse, par paquets de plusieurs centaines de Go, dans la statistique et le machine learning.

De quoi ajouter « deux secteurs du High Performance Computing (HPC) qui n'en avaient pas encore bénéficié, jusqu'à maintenant » à l'arc de Jen Hsun Huang et ses équipes. Le tout en changeant la vie des data scientists promet la société, non sans une pointe d'humour.

Une solution rendue possible selon NVIDIA grâce à DASK et le travail de Wes McKinney pour le traitement de données dans différents langages au sein de la mémoire, et la parallélisation de code Python. 

L'ouverture de nouveaux marchés rapidement accessibles

La visualisation de données doit suivre, et venir compléter la longue liste de secteurs où le GPU a déjà montré son intérêt ses dernières années, du rendu 3D au deep learning en passant par les traitements mathématiques en tous genres. 

« Des calculs qui prenaient la journée pourront être désormais traités bien plus rapidement » selon Tseng. La société donne quelques exemples comme la détection de fraude dans les systèmes de paiement en ligne, les assistants vocaux, la recommandation, l'analyse de comportement des consommateurs ou la gestion des stocks d'un revendeur.

Dans ce dernier cas, la prévision est un enjeu important, qui implique de prendre en compte une multitude de facteurs comme l'historique des ventes, la météo, les arrivages et autres indicateurs qui peuvent dépendre de chaque typologie de produits. Réduire le temps de traitement peut donc être crucial.

Surtout, s'adresser à ce public sera bien plus rapide que de miser sur la voiture autonome ou la robotique, qui constituent des enjeux et des marchés qui pourront prendre des années à prendre réellement leur envol. Ici, il s'agit surtout de débloquer avec une plateforme logicielle des usages qui peuvent être adressés par du matériel existant.

De plus en plus d'open source chez NVIDIA

L'objectif est donc de voir l'écosystème logiciel s'emparer assez largement de cette solution pour l'intégrer aux différents outils du marché. Ceux des gros éditeurs, mais aussi ceux proposés par la communauté open source. Un travail qui a commencé en amont de l'annonce du jour, ce qui est plutôt une bonne nouvelle.

Apache Spark proposera par exemple une intégration native de RAPIDS via Arrow et le projet Hydrogen. Oracle va l'exploiter au sein de son offre Data Science Cloud. HP et IBM ont aussi évoqué une arrivée au sein de leur offre, sans plus de détails pour le moment. Des clients finaux comme Walmart sont mentionnés. 

Anaconda, BlazingDB, Databricks ou encore Quansight sont également impliqués. L'écosystème Python sera largement concerné avec le support par Pandas ou encore Scikit-learn. Le constructeur a mis en ligne un site dédié à son nouveau projet et propose des conteneurs prêts à être utilisés dans son offre GPU Cloud.


À noter :

Dans le cadre de la réalisation de cet article, nous sommes allés à la rencontre des équipes de NVIDIA à la GTC de Munich. Celle-ci a pris en charge une partie de notre transport, hébergement et restauration sur place. Conformément à nos engagements déontologiques, cela s'est fait sans aucune obligation éditoriale de notre part, excepté le respect des dates d'embargo (NDA), et sans ingérence de la part de NVIDIA.


chargement
Chargement des commentaires...