
Fermi : une supercalculateur prévu pour 2010
Autant prévenir les joueurs, la GTC (GPU Technology Conference) étant avant tout axée sur le GPU Computing, il était surtout question de l'évolution de CUDA et des avancées de Fermi en la matière.
NVIDIA devrait en effet revenir un peu plus tard sur les nouveautés destinées aux joueurs, et les détails de l'architecture pour ses derniers. L'occasion d'occuper un peu plus le terrain médiatique en attendant un lancement qui ne devrait pas être prévu avant début 2010.
Nous avons donc décidé de détailler les grandes lignes de cette architecture, de manière simple. Les amateurs de technique pure pourront aller du côté des dossiers de nos confrères ou du White Paper de NVIDIA.
De notre côté, nous reviendrons plus en détails sur Fermi lorsque les produits seront annoncés et disponibles, et que l'ensemble des informations sur la puce sera connu.
NVIDIA voit très gros : 3 milliards de transistors en 40 nm
Comme prévu, celle-ci sera gravée en 40 nm par TSMC et embarquera pas moins de 3 milliards de transistors. On aura ainsi droit à 512 unités de traitement, désormais nommées CUDA Cores, regroupées en 16 Stream Multiprocessors (SM) qui en contiennent chacun 32.
Pour rappel avec le G80 puis le GT200, NVIDIA disposait de 128 puis 240 de ces unités de traitement.
Plus du double des unités du GT200... avec de l'efficacité en plus
De plus, leur efficacité a été améliorée tant au niveau de leur fonctionnement (double scheduler, découplage des Special Functions Units (SFU), passage d'un contexte à l'autre plus rapide, exécution de Kernels en parallèle) que des capacités de calcul (Rapport FP32/FP64 qui passe de 1/8 à 1/2, amélioration de l'ALU).
Le caméléon annonce ainsi une multiplication par quatre des performances en double précision dans la pratique (8x en crête dans la théorie).
Du côté du cache, on retrouve une hiérarchie quasiment identique à celle des CPU. Chaque SM dispose ainsi de 64 ko de RAM qui est configurable de deux manières : 16 ko de L1 et 64 ko de mémoire partagée ou 48 ko de L1 et 16 ko de mémoire partagée.
De plus, la puce embarque 768 ko de cache de type L2, commun à l'ensemble des SM et qui leur permet de s'échanger des données.
Un système de cache à deux niveaux, jusqu'à 6 Go de GDDR-5 et une gestion de l'ECC

Afin de permettre à ceux qui exploitent les GPU d'effectuer des calculs intensifs, et pour qui l'intégrité des données est vitale, Fermi supporte l'ECC (SECDED) au niveau de sa mémoire, des caches L1 et L2, de la mémoire partagée et des registres.
Un point qui pourrait fortement avantager NVIDIA dans certains types d'applications dans le monde professionnel. De plus, la puce est compatible avec la norme IEEE 754-2008 pour la précision des calculs, tout comme le RV870.
PTX passe à la version 2.0 : le C++ au programme et Nexus pour le développement

Cette ISA (Instruction Set Architecture) a été améliorée afin de simplifier leur travail, mais aussi de supporter de nouvelles fonctions pour OpenCL et DirectCompute... ainsi que de permettre le support du C++ grâce à l'unification des espaces mémoire (local, shared, global).
Il devrait donc être possible de compiler des applications exploitant ce langage afin qu'elles soient exécutées sur le GPU, mais NVIDIA n'a pour l'instant évoqué aucun compilateur, ce qui ne devrait néanmoins pas tarder.
Bien entendu, d'autres langages sont d'ores et déjà supportés tels que C, Fortran, Java, Python, OpenCL et DirectCompute. Le tout pourra désormais être développé via un nouvel outil qui sera proposé par NVIDIA, Nexus.
Fermi : une très bonne puce de GPU Computing... mais sous Crysis ?

Si NVIDIA devrait réussir à faire patienter les développeurs et autres scientifiques de la planète avec cette première vague d'informations, cela ne devrait pas être le cas des joueurs.
En effet, dans l'esprit de ceux-ci, si monstre rime souvent avec hautes performances, cela implique souvent un coût démesuré et une consommation importante.
Deux points sur lesquels AMD donne plutôt de bons gages pour le moment avec ses Radeon HD 5800. Et le clou devrait être enfoncé avec l'arrivée prochaine des Radeon HD 5700 qui seront encore plus abordables.
NVIDIA laisse le marché du GPU à AMD pour au moins 3 mois... ainsi que Noël

La guerre du GPU Computing, elle, aura lieue plus tard, et très certainement avec un autre trublion : Intel et son Larrabee.
Espérons que d'ici là, le caméléon nous aura prouvé que son « supercalculateur dans un corps de GPU » est aussi un excellent GPU, capable de faire pencher le coeur des joueurs... en sa faveur.