[GTC] GK110 : le GPU à 7.1 milliards de transistors de la Tesla K20 se montre

Tesla K10 : une GeForce GTX 690 pour serveurs 20
Au sein de son calendrier de sessions de la GTC, NVIDIA faisait récemment référence à Kepler comme à une architecture qui prenait place au sein d'un GPU à 7 milliards de transistors. On se demandait alors si cela faisait référence à la GeForce GTX 690, encore sous NDA à ce moment-là... on apprend aujourd'hui que non, le caméléon venant de lever le voile sur le GK110.

Kepler GK110

Tout d'abord, il faut savoir qu'il ne sera pas utilisé au sein de la Tesla K10 que nous avions rapidement évoquée hier et qui s'avère être au final un équivalent de la GeForce GTX 690, avec deux GK104 mais aussi 4 Go de GDDR5 par GPU. Il sera par contre au coeur de la Tesla K20 qui arrivera d'ici la fin de l'année.

Rien n'a été indiqué concernant une éventuelle arrivée au sein d'une Quadro ou d'une GeForce.

Tesla K10 K20 Specs

Cette nouvelle puce est bel et bien composée de 7.1 milliards de transistors, et se veut donc deux fois plus importante (et performante ?) que le GK104 et ses 3,54 milliards de transistors au compteur. Le caméléon semble ainsi avoir décidé de frapper un grand coup dans le secteur des serveurs à haute performance, bien que l'on se demande comment il va pouvoir livrer de tels GPU en 28 nm alors qu'il semble encore avoir du mal à assurer la production de la version grand public. 

Pour le reste, NVIDIA se refuse à donner le moindre détail sur son architecture. On peut voir sur l'image diffusée que 15 groupes d'unités (SMX) se répètent et selon nos confrères de BSN, son interface mémoire serait toujours de 384 bits, ce qu'il faudra confirmer d'ici une communication plus complète de la part du constructeur.

NVIDIA GTCNVIDIA GTC
Crédits : NVIDIA

Mais la marque n'évoque au final que les nouvelles technologies qu'elle souhaite mettre en avant : Hyper-Q et Dynamic Parallelism, qui sont détaillées au sein de ce document. La première permet au CPU de communiquer avec le GPU via 32 canaux concurrents, contre 1 seul pour Fermi.

Une manière de maximiser les performances selon NVIDIA, en permettant au processeur d'envoyer assez d'informations au GPU pour l'occuper au maximum de son potentiel :

NVIDIA Hyper-Q 

Si cette pratique n'était pas totalement impossible auparavant, elle impliquait des goulots d'étranglement que NVIDIA promet de faire disparaître. Reste à voir ce qu'il en sera dans le monde réel. 

La seconde concerne elle aussi la communication entre le CPU et le GPU, mais elle pourrait bien s'avérer bien plus intéressante dans la pratique. En effet, elle permet au premier d'envoyer des suites d'ordres au GPU (kernels) qui pourra ensuite s'en donner à lui-même (kernels imbriqués). Auparavant, il fallait à chaque fois repasser par le processeur central, ce qui impliquait une forte perte d'efficacité qui n'a plus lieu d'être ici :

NVIDIA Dynamic Parallelism

Une manière de simplifier grandement le travail des développeurs qui devrait aller de pair avec l'arrivée de CUDA 5 et de nouveaux outils sur lesquels nous reviendrons assez vite.
Par David Legrand Publiée le 16/05/2012 à 10:50
Publicité