[MàJ] NVIDIA publie la version finale de CUDA 6

Moins de travail, c'est toujours bon à prendre

NVIDIA vient d'annoncer officiellement la sixième version de CUDA, qui arrivera début 2014. Au programme, on note l'arrivée de la gestion unifiée de la mémoire, promise de longue date et qui permettra de simplifier le travail des développeurs. Mais quelques autres nouveautés sont aussi au programme.

« La plateforme CUDA 6 rend la programmation parallèle bien plus simple qu'auparavant, permettant aux développeurs de réduire de manière importante les efforts et le temps passé afin d'accélérer leurs applications grâce aux GPU ». C'est avec cette promesse que commence l'annonce officielle de la nouvelle version de CUDA qui n'arrivera que début 2014.

NVIDIA a profité de la fin de la conférence APU13 d'AMD pour faire cette annonce, et devrait en dire plus lors de la SC13 qui va ouvrir ses portes. La grande avancée de CUDA 6 est l'arrivée de la gestion unifiée de la mémoire, qui permet d'aller plus loin que ce qui était permis depuis CUDA 4.0 à ce niveau. En effet, désormais on évite au développeur de gérer l'échange des données entre la mémoire du CPU et celle du GPU pour avoir accès aux données. Celui-ci a toujours lieu, mais il est pris en charge automatiquement.

Une façon différente de faire d'AMD avec hUMA puisque cet échange n'est dans ce cas pas nécessaire, ce qui devrait constituer un avantage en terme de performances au niveau des APU. Il sera intéressant de voir ce qu'il en sera une fois que la prochaine architecture Maxwell sera sur le marché.

De nouvelles bibliothèques BLAS et FFT optimisées pour le multi-GPU capables de s'adapter à la présence d'un maximum de huit GPU. Elles seront automatiquement utilisées à la place des versions optimisées pour les CPU lorsque cela sera possible. Les développeurs qui veulent un accès préliminaires peuvent le demander par ici. De nombreux outils de développement seront mis à jour suite à l'arrivée de CUDA 6 qui devrait être dévoilé de manière plus complète dans les jours à venir.

Google rassemble ses équipes Android et Appareils

07:34 6

« Projet Nimbus » : Google licencie 28 salariés qui ont manifesté contre un contrat cloud avec Israël

07:32 13

JOP : la préfecture de Paris autorise deux nouvelles expérimentations de vidéosurveillance algorithmique (VSA)

07:31 4

La DGSE lance la 3e édition de 404CTF, « la plus grande compétition de cybersécurité de France »

07:24 0

Sous Windows 10 et 11, le Store reçoit d’importantes améliorations

07:21 25

Changer de Cap demande aux administrations de garantir la sécurité des données des Français

07:19 8

Commentaires (18)

Adakite

Le 15/11/2013 à 16h 42

Les développeurs qui veulent un accès préliminaires peuvent le demander par ici.

mais si je comprends bien, de toute manière il faudra attendre Maxwell pour bénéficier matériellement de ce partage mémoire. Je me trompe ?

Du coup, je vois déjà moins l’intérêt de donner l’accès tant qu’aucun GPU Maxwell n’est sur le marché. Ca sera au passage intéressant de voir quelle politique Nvidia va avoir sur la question du FP64 des GM110 (je suppose que la nomenclature ne changera pas) parce que c’est quand même la déception sur la génération Kepler. Surtout que AMD avec sa 7970 propose quelque chose des très correct et ce même pour le grand public; même si la Titan reste sur ce point “encore” intéressante….mais chère la vache!

David_L Abonné

Le 15/11/2013 à 16h 45

Adakite a écrit :

mais si je comprends bien, de toute manière il faudra attendre Maxwell pour bénéficier matériellement de ce partage mémoire. Je me trompe ?

Maxwell ce sera autre chose, d’où la dénomination différente d’ailleurs. Là de toutes façons ce n’est pas vraiment une nouveauté dans la pratique, juste une facilité pour le développeur au niveau du code (d’ou la phrase marketing bingo du début)

lain

Le 15/11/2013 à 16h 54

serait-ce un teaser des GTX 800 ? " />

ragoutoutou Abonné

Le 15/11/2013 à 20h 48

Si c’est bien fait, ça pourrait faire baisser dramatiquement la consommation mémoire de certaines applis qui doivent maintenir de multiples copies de mêmes blocs de données… Amélioration donc des moteurs de rendu et des pipelines de compression vidéo.

pyro-700

Le 15/11/2013 à 23h 03

depuis le temps que nvidia nous rabat les oreilles avec la mémoire unifié il était temps qu’ils le sorte avant de passer à la concurrence. " />

Birto

Le 15/11/2013 à 23h 33

je suis pas un pro de la prog… mais une simple classe en CPP qui FAI passer les données de la RAM a la VRAM en vérifiant la synchro ce n’est pas bon ?

qui alloue que la ou c’est nécessaire

qui copie que quand c’est nécessaire

etc etc

je suppute mais c’est pas en gros ça mais directement intégré ?

Le 15/11/2013 à 23h 34

pardon pour les fautes . Version mobile …

dam1605 Abonné

Le 18/11/2013 à 06h 46

La plateforme CUDA 6 rend la programmation parallèle bien plus simple qu’auparavant, permettant aux développeurs de réduire de manière importante les efforts et le temps passé afin d’accélérer leurs applications grâce aux GPU

Pus simple je veux bien croire mais est ce que c’est vraiment utile ?

Quelqu’un qui cherche a utiliser son gpu, c’est pour les perfs et si y’a un truc qui est lent dans cette histoire : c’est la liaison pcie. Donc j’espère juste que ce sera pas du tout automatique et qu’on pourra toujours gérer ça explicitement si on veut.

Birto a écrit :

je suis pas un pro de la prog… mais une simple classe en CPP qui FAI passer les données de la RAM a la VRAM en vérifiant la synchro ce n’est pas bon ?

qui alloue que la ou c’est nécessaire

qui copie que quand c’est nécessaire

etc etc

je suppute mais c’est pas en gros ça mais directement intégré ?

c’est intégré dans le compilo, y’aura peut-être un attribut pour le lui indiquer tout de même.

Enfin là le support, il doit être un peu matériel et passer par les fonctionnalités d’addressage et de mémoire virtuelle du pcie je suppose. SI c’est ça tout ce qui est copie et transfert sont gérer le système mémoire du gpu.

Marvellou

Le 06/03/2014 à 14h 25

dam1605 a écrit :

Pus simple je veux bien croire mais est ce que c’est vraiment utile ?

Quelqu’un qui cherche a utiliser son gpu, c’est pour les perfs et si y’a un truc qui est lent dans cette histoire : c’est la liaison pcie. Donc j’espère juste que ce sera pas du tout automatique et qu’on pourra toujours gérer ça explicitement si on veut.

Ça permettra de porter directement des bouts de codes sans rien faire. Après si on recherche une énorme accélération, il faudra toujours passer par une optimisation fine des transferts mémoires. Je comprends que c’est juste une facilité de développement, et non un gain en perf. Le hardware, reste le hardware.

Mais bon allouer sur le GPU et gerer les transferts c’est pas le plus compliqué chez CUDA.

luxian Abonné

Le 15/04/2014 à 19h 11

#10

lain a écrit :

serait-ce un teaser des GTX 800 ? " />

Au fait … quand est-ce que les Maxwell qualité filtre arrivent autrement qu’en 750 ?

Holly Brius

Le 15/04/2014 à 19h 32

#11

luxian a écrit :

Au fait … quand est-ce que les Maxwell qualité filtre arrivent autrement qu’en 750 ?

Je sais pas " /> j’attend avec impatience leur nouvelle gestion de la VRAM (la VRAM c’est le goulot d’étranglement absolue sur GPU)…

Emralegna

Le 15/04/2014 à 21h 36

#12

Rassurez-vous je viens d’acquérir une GTX 770, donc la nouvelle gamme sortira forcément assez vite pour me dégoûter de pas avoir attendu un mois de plus.

barlav Abonné

Le 15/04/2014 à 21h 42

#13

Emralegna a écrit :

Rassurez-vous je viens d’acquérir une GTX 770, donc la nouvelle gamme sortira forcément assez vite pour me dégoûter de pas avoir attendu un mois de plus.

" /> Toi aussi tu sais que toute action de ta part déclenchera des foudres hostiles pour ridiculiser tes choix.

Pareil

" />

linkin623 Abonné

Le 15/04/2014 à 21h 48

#14

Emralegna a écrit :

Rassurez-vous je viens d’acquérir une GTX 770, donc la nouvelle gamme sortira forcément assez vite pour me dégoûter de pas avoir attendu un mois de plus.

" /> attention, il y a une nouvelle gamme dans 6 mois /breaking news " />

Clair que ça sert à rien d’attendre, faut prendre la carte qui a le meilleur rapport perf/prix à un moment donné! Et puis franchement, seules les cartes ultra HDG sont dépassées aussitôt.

HarmattanBlow

Le 16/04/2014 à 02h 27

#15

Mouais, de toute façon CUDA est spécifique à NVidia et en 2014 ça n’a d’intérêt que pour ceux qui sont prisonniers de leur code en CUDA et ceux qui ont des contrats à gros sous avec NVidia. Aujourd’hui on utilise OpenCL, point barre, les API proprios vont crever comme elles le méritent.

A chaque fois c’est pareil de toute façon : douze vendeurs débarquent avec leurs solutions exclusives qu’il veulent imposer au reste du monde contre redevance à gros sous et deux ans plus tard ça finit avec un standard (et quand même des gros sous du fait de ces brevets logiciels inutiles de m….).

ragoutoutou a écrit :

Si c’est bien fait, ça pourrait faire baisser dramatiquement la consommation mémoire de certaines applis qui doivent maintenir de multiples copies de mêmes blocs de données… Amélioration donc des moteurs de rendu et des pipelines de compression vidéo.

Pas du tout, les données seront toujours copiées par le pilote. La haute latence du bus PCIe (en microsecondes) interdit tout travail direct et de toute façon les CPU seraient mauvais avec de la VRAM et les GPU mauvais avec de la RAM.

Birto a écrit :

je suis pas un pro de la prog… mais une simple classe en CPP qui FAI passer les données de la RAM a la VRAM en vérifiant la synchro ce n’est pas bon ?

qui alloue que la ou c’est nécessaire

qui copie que quand c’est nécessaire

etc etc

je suppute mais c’est pas en gros ça mais directement intégré ?

Si c’est ça, directement intégré. La différence c’est que aujourd’hui les données à copier étaient fournies à l’initialisation du bidule (tu lançais un programme sur un GPU en lui filant en même temps les données à traiter) et que les résultats étaient recopiés à la fin dans l’autre sens. Donc il n’y avait de toute façon pas de mécanisme pour gérer manuellement ces transferts.

Le 16/04/2014 à 07h 52

#16

En effet, désormais on évite au développeur de gérer l’échange des données entre la mémoire du CPU et celle du GPU pour avoir accès aux données. Celui-ci a toujours lieu, mais il est pris en charge automatiquement.

C’est seulement une facilité pour le dev, ca n’améliore en rien les performances.

Et quand on voit le niveau de controle dont on a besoin pour faire un algo vraiment rapide, on retombera rapidement vers une gestion a la main des transferts mémoire.

Mais pour maquetter rapidement un truc, c’est cool.

Le 16/04/2014 à 08h 04

#17

Marvellou a écrit :

C’est seulement une facilité pour le dev, ca n’améliore en rien les performances.

Si. Imagine une classe matrice que l’on utiliserait avec deux multiplications enchaînées :

M1 = A * B

M2 = M1 * C

Entre les deux multiplications les données vont inutilement revenir au CPU et ce dernier devra à son tour les renvoyer pour les besoins de la seconde multiplication. Le seul moyen aujourd’hui d’éviter ça c’est de créer un code spécial pour enchaîner deux multiplications. Impossible de conserver l’encapsulation.

Le 16/04/2014 à 09h 05

#18

HarmattanBlow a écrit :

Si. Imagine une classe matrice que l’on utiliserait avec deux multiplications enchaînées :

M1 = A * B

M2 = M1 * C

Entre les deux multiplications les données vont inutilement revenir au CPU et ce dernier devra à son tour les renvoyer pour les besoins de la seconde multiplication. Le seul moyen aujourd’hui d’éviter ça c’est de créer un code spécial pour enchaîner deux multiplications. Impossible de conserver l’encapsulation.

On va pas rentrer dans le détail ici, mais si ta matrice M1 est calculée par sur le GPU, elle est allouée une fois pour toute sur le GPU, et restera dispo pour plusieurs kernels différents. Pas besoin de passer par le CPU. rien n’empêche de manipuler des pointeurs de mémoire GPU dans ton code CPU, et donc dans ta classe.

[MàJ] NVIDIA publie la version finale de CUDA 6

Moins de travail, c'est toujours bon à prendre

Tiens, en parlant de ça :

[Édito] Au pays des VPN menteurs…

Article sponsorisé par les lecteur de Next

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Le progrès <3

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

NSA.I

Sommaire de l'article

Introduction

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

#Flock : de Game of Shithrones au jeu des sept différences