Après presque un mois de cache-cache, NVIDIA en dit enfin un peu plus sur sa nouvelle architecture Turing qui se décline en trois GPU. Et contrairement à ce que la communication du constructeur a pu laisser penser, les évolutions sont loin de ne concerner que le ray tracing.
Lorsqu'il a dévoilé sa nouvelle architecture Turing, NVIDIA n'a pas annoncé une seule carte graphique, mais six. Le constructeur mise tant sur le grand public que les professionnels et commence par le haut de gamme en dévoilant dès maintenant un modèle « Ti ». Des choix qui diffèrent de la méthode utilisée pour Pascal.
Nous avons donc découvert les Quadro RTX 5000, 6000 et 8000 puis les GeForce RTX 2070 et 2080 (Ti) quelques jours plus tard. Des références cachant trois GPU : les TU102, TU104 et TU106. Ils bénéficient tous des avancées de la nouvelle architecture (à quelques détails près) et d'une gravure en 12 nm FFN déjà utilisée sur Volta.
Cette génération doit réconcilier les deux marchés phares guidant les bons résultats de NVIDIA : les joueurs et le calcul massivement parallèle. Souvent à mi-chemin entre Pascal et Volta, ces puces introduisent des changements plus radicaux, notamment l'évolution du pipeline graphique et le ray tracing.
NVIDIA les a détaillés dans un document technique auquel nous avons eu accès avec quelques jours d'avance. L'occasion d'analyser ces évolutions, gratter la couche de marketing... et comprendre comment le constructeur veut nous impressionner autrement que par l'explosion de ses prix.
Notre dossier sur Turing et les GeForce RTX :
- TU102, TU104 et TU106 : que cachent les nouveaux GPU Turing de NVIDIA ?
- DLSS et NGX, OC simplifié, 8K, NVLink et VirtuaLink : les GeForce RTX au-delà du ray tracing
- NVIDIA Turing : les nouveautés des GeForce RTX 2070, 2080 et 2080 Ti expliquées simplement
Turing : 10 ans de recherche pour un meilleur compromis
Commençons par revenir sur quelques chiffres déjà livrés par le constructeur. Une puce TU102 complète, c'est un die de 754 mm² gravé en 12 nm FFN par TSMC, qui compte pas moins de 18,6 milliards de transistors. Des chiffres en hausse de 55 à 60 % par rapport à Pascal et le GP102 des GTX 1080 Ti, Titan X et Titan Xp (12 milliards de transistors, 471 mm²).
NVIDIA présente cette puce comme sa réalisation la plus complexe, lui ayant demandé une dizaine d'années de travail. Elle semble effectivement au croisement de trois tendances chez le constructeur : l'évolution classique de son architecture et de ses CUDA Cores, la montée en puissance de l'IA et des calculs matriciels via les Tensor Cores, et l'arrivée du ray tracing à travers les RT Cores avec une première couche d'évolution du pipeline graphique.
Ces approches étaient gérées jusque-là via des gammes de GPU séparées. Turing doit y mettre fin et couvrir les différents besoins. À charge pour NVIDIA et ses partenaires de trouver des débouchés à l'IA et au ray tracing pour le grand public... et de convaincre aussi bien les développeurs que les joueurs.
Cette recherche de compromis a un premier impact : la TU102 est plus compacte que la GV100 des Titan V. Cette dernière affichait pas moins de 21,1 milliards de transistors pour 815 mm² via une gravure en 12 nm FFN. Ainsi, de nombreux chiffres sont en baisse par rapport à cette génération que NVIDIA se garde bien de mettre en avant dans ses comparatifs :
Mais une Titan V coûte pas moins de 3 000 euros. L'objectif n'était pas de reproduire un tel monstre, mais d'en prendre les aspects positifs pour les injecter dans un GPU et des cartes pouvant s'afficher à un tarif (un peu) plus abordable.
Une organisation assez classique
Un TU102 (Turing), comme le GP102 (Pascal) et le GV100 (Volta), est organisé sous forme de six Graphics Processing Clusters (GPC). Ils intègrent un moteur de rastérisation et six Texture Processing Clusters (TPC) comprenant un PolyMorph Engine en charge de la géométrie et deux Streaming Multiprocessors (SM) composés de quatre blocs d'unités de calcul.
On compte donc au total :
- 6 GPC, 36 TPC et 72 SM
- 4 608 CUDA Cores
- 576 Tensor Cores
- 72 RT Cores
Douze contrôleurs GDDR6 de 32 bits sont présents au sein de la puce. NVIDIA a ainsi fait le choix de cette mémoire de nouvelle génération avec un débit de 14 Gb/s, contre 11 Gb/s pour la GDDR5X et 9 Gb/s pour la GDDR5.
De quoi disposer d'une large bande passante sans la coûteuse HBM2, réservée à certaines cartes du marché professionnel. L'intérêt est aussi dans sa consommation, revue à la baisse, notamment lorsqu'elle est peu sollicitée. Elle serait ainsi 20 % moins gourmande que la GDDR5X utilisée avec les GPU Pascal.
Chaque contrôleur est accompagné de huit unités de rendu (ROP) et 512 ko de cache L2. Annoncé comme plus rapide, ce dernier double en quantité (mais on reste à 256 ko par SM). Soit les caractéristiques suivantes :
- Une interface mémoire de 384 bits
- 96 ROP
- 6 Mo de cache L2
Un équilibre là encore conforme aux habitudes de NVIDIA. La bande passante mémoire des RTX 2080 Ti et Quadro RTX 6000 est ainsi donnée pour 616 et 672 Go/s. On se situe donc entre les 484 Go/s de la GTX 1080 Ti et les 900 Go/s de la Tesla V100, proche des 653 Go/s de la Titan V.
Une meilleure compression mémoire
Le GP104 des GeForce GTX 1080 avait déjà été l'occasion pour NVIDIA d'évoquer une réduction de la bande passante mémoire nécessaire grâce à de nouvelles techniques de compression sans perte. Le gain annoncé par rapport à la GTX 980 était alors de 20 %.
Dans le cas de Turing, la société annonce des résultats encore meilleurs, mais se fait discrète sur la méthode et ne livre qu'un graphique peu détaillé. Ainsi, un gain de 50 % en bande passante est annoncé en moyenne. Un chiffre qui intègre la part incombant à l'utilisation de la GDDR6, comptant pour un peu moins de 30 % :
Un zeste de Volta
C'est surtout lorsque l'on regarde la composition des SM et de leurs blocs d'unités de calcul que les choses évoluent. Tout d'abord avec une reprise des évolutions du GV100. Ils se composent ainsi d'un scheduler, d'une unité de dispatch, d'un fichier de registre de 16 ko et d'un cache d'instruction L0, et peuvent traiter des instructions FP32 et INT32 en simultané.
Cette séparation des CUDA Cores en deux ALU est une nécessité selon le constructeur, puisque dans le cas des shaders, les développeurs peuvent effectuer des calculs sur des flottants tout en ayant besoin de faire de même sur des entiers pour des opérations simples, de la comparaison, de la récupération de données, etc.
Dans le cas de Pascal, les calculs FP32 traités par un CUDA Core étaient mis en attente lorsqu'un calcul INT32 était en cours. Désormais, ce ne sera plus le cas, deux unités d'exécution fonctionnant en parallèle. Selon NVIDIA, cela permettrait de traiter 36 instructions INT32 pour 100 instructions FP32, augmentant d'autant les performances.
Les calculs FP16 sont également supportés, au double du débit des unités FP32, soit 28,5 TFLOPS.
À l'inverse, on regrettera que la puissance de calcul FP64, une précision nécessaire dans certaines applications, affiche un rapport de 1 pour 32 par rapport à celles en FP32. D'autant que cela semble concerner aussi bien les GeForce que les Quadro. Ainsi, un SM de TU102 est donné pour :
- 64 unités FP32 par SM
- 2 unités FP64 par SM
NVIDIA vante aussi les évolutions de son cache L1 propre à chaque SM. Comme pour le GV100, il est unifié et configurable. Il passe par contre de 128 ko à 96 ko qui peuvent être configurés en 64 ko de cache de données et 32 ko de mémoire partagée ou inversement. Une manière de coller aux différents usages et besoins des développeurs.
Cette approche permet selon NVIDIA de doubler la bande passante et de réduire la latence. Cumulé à l'augmentation du cache L2 et autres améliorations évoquées, cela permettrait à Turing d'annoncer un gain d'au moins 50 % sur le traitement des shaders dans différents jeux.
Des Tensor Cores avec un mode INT4
Passons ensuite aux Tensor Cores, des unités présentées comme parfaites pour les calculs liés à l'intelligence artificielle, notamment la phase d'inférence. Elles peuvent effectuer de manière plus efficace des calculs sur des matrices de 4x4 en précision dite mixte. Avec Turing, elles évoluent peu, mais sont toujours au nombre de huit par SM.
Chacune peut donc toujours traiter 64 opérations FMA (FP16) par cycle, soit 512 par SM. En plus de la gestion du mode INT8 ajouté avec Volta, Turing apporte le mode INT4. Si l'utilité de telles unités de calcul n'est pas tout à fait apparente pour une carte consacrée aux jeux vidéo, les avantages pourront être multiples.
Cela passe tout d'abord par les solutions NGX et DLSS de NVIDIA, utilisées pour améliorer le rendu graphique à travers l'utilisation de réseaux neuronaux. On pense aussi plus simplement à une exploitation directe dans les jeux ou même dans des applications, puisque les développeurs peuvent désormais exploiter des solutions comme WinML de Microsoft.
Multi-process Service : surtout pour les serveurs
Une fonctionnalité rapidement évoquée par NVIDIA, elle aussi issue de Volta, ne s'adresse pas vraiment aux joueurs : Multi-Process Service (MPS).
Elle doit mieux gérer le fonctionnement simultané d'applications sur un même GPU. Ainsi, au lieu de donner à chacune un accès exclusif pour un temps donné, plusieurs peuvent exploiter les ressources disponibles au même moment. Pour que cela fonctionne, il faut bien entendu qu'aucune ne monopolise les unités de calcul.
NVIDIA rappelle qu'une telle solution avait été mise en place avec Kepler dans le GK110, mais de manière logicielle, avec une architecture de typer client-serveur. Dans Volta, cette approche a été conservée mais bénéficie d'une accélération matérielle. Ainsi, jusqu'à 16 clients peuvent fonctionner sur un GPU de la génération Pascal, contre 48 pour Volta.
Les clients ne passent plus par une couche intermédiaire côté CPU et envoient directement les tâches à exécuter au GPU qui les placera dans une file d'attente. Ce, de manière isolée (adressage, QoS). Chaque client peut donc préciser quelle part des unités doit lui être réservée pour éviter qu'un seul ne monopolise la puce.
Un dispositif permettant de gagner en performances pour certains types de charges selon NVIDIA, notamment dans les calculs liés à l'inférence. Des résultats renforcés par la possibilité de traiter les tâches par lots (batching).
Avec Turing, aucun changement, si ce n'est que MPS est plus largement disponible.
Ray tracing : cette fois, c'est la bonne ?
Mais s'il y a bien un point sur lequel NVIDIA a focalisé toute sa communication, c'est le ray tracing. Il faut dire que le constructeur se prépare à faire progressivement évoluer ses GPU vers cette technique de rendu, en remplacement de la rastérisation. C'était le sens de l'annonce de RTX à la GDC.
Et l'écosystème semble suivre, de Microsoft avec DirectX RT (DXR) aux développeurs ayant déjà annoncé prendre en compte cette API dans leurs prochains titres. Elle sera diffusée avec la version d'octobre de Windows 10. Pour Vulkan, NVIDIA expose des extensions RTX et a proposé une API reprenant les fondamentaux de DXR au Khronos Group.
Bien entendu, nous ne sommes qu'au début de cette révolution et NVIDIA va sans doute payer dans un premier temps son trop-plein d'enthousiasme, pour une raison simple : aucun jeu ou aucune application n'en tire parti aujourd'hui.
La scène raytracing de 3DMark n'est pas encore disponible, les premiers patchs pour les jeux partenaires du lancement des GeForce RTX sont attendus d'ici quelques mois, tout comme la nouvelle version de GeForce Experience avec Ansel RTX. Autant dire que les avantages des nouvelles GeForce en la matière auront du mal à être visibles.
C'est ce qui explique que la société communique de manière croissante sur les performances en 4K HDR à 60 Hz et DLSS.
Mais une fois la machine lancée, il sera sans doute difficile de faire marche arrière, NVIDIA le sait. Si à court terme l'enjeu est du côté des professionnels – avec des GPU capables de remplacer des CPU de manière bien plus efficace pour un rendu 3D complet via le ray tracing – la technologie pourrait faire la différence auprès des joueurs dans les années à venir.
Surtout si AMD n'embraye pas rapidement, le constructeur étant pour le moment discret sur DirectX RT et sa gestion par les Radeon. La situation devrait néanmoins évoluer, la société étant assez active sur ses modèles Pro, le moteur de rendu ProRender et son intégration à des applications tierces.
Car il faut bien comprendre que le ray tracing n'a rien de nouveau. Comme le dit NVIDIA, cela fait des dizaines d'années que l'industrie se penche sur cette solution visant à exploiter le lancer de rayons et l'analyse de leurs rebonds pour effectuer des rendus photoréalistes. Mais elle demande des ressources et du temps.
Chaque matériau doit être caractérisé, les millions de rayons lancés sont autant de données à traiter. Optimiser tout cela pour disposer d'un rendu en temps réel est un enjeu d'une complexité folle. Il devient possible grâce au denoising et les travaux effectués sur les réseaux neuronaux, ou un rendu hybride. Mais d'autres avancées sont encore nécessaires.
C'est en cela que Turing est une étape majeure, puisque c'est le premier GPU à disposer à la fois d'une architecture classique, d'unités Tensor et des nouveaux RT Cores (nous y reviendrons).
Mais NVIDIA oublie un chapitre dans son storytelling pleine de vieilles vidéos de Doom et de balles qui tournent : ce n'est pas la première fois qu'il nous fait des promesses en la matière. La société a en effet investi de longue date dans des solutions de ray tracing comme Optix ou Iray.
Dès 2008, on trouve des mentions de démonstrations de ray tracing en temps réel, à l'époque sur des Quadro FX 5800. Il faut dire qu'à l'époque, Intel s'amusait déjà bien avec ses CPU ou Larrabee (voir ici, là ou encore là). Même chose quelques années plus tard avec Design Garage, qui aurait pu être utilisé dans un Need for Speed d'EA.
Rebelote en 2012 pour Kepler à la GTC. Tant de recherches et de démonstrations ayant sans doute porté NVIDIA vers l'annonce de Turing et à l'arrivée du ray tracing dans les jeux vidéo. Mais cela montre également qu'il faut se méfier des annonces parfois légèrement... anticipées.
RTX pour la généralisation du ray tracing
Nous ne reviendrons pas ici sur le fonctionnement détaillé du ray tracing. Sachez seulement qu'il s'agit d'effectuer le rendu d'une image à travers l'analyse de rayons de lumière et leurs rebonds dans une scène en trois dimensions. Ces rayons sont émis depuis le point d'observation plutôt que depuis les sources de lumière, à l'inverse d'un rendu classique.
Chaque intersection entre un rayon et un objet est l'occasion d'un calcul d'information sur la couleur et la lumière de la zone concernée. Ainsi, la caractérisation des matériaux est un élément important, du bois, du verre ou du métal ne se comportant pas de la même manière. C'est le sens du travail de NVIDIA sur le SDK Material Definition Language (MDL), récemment passé en open source (sous licence BSD modifiée).
Il s'agit donc d'obtenir un résultat bien plus proche de la réalité, via les reflets, lumières, ombres, etc. C'est aussi une méthode beaucoup plus coûteuse en performances que la classique rastérisation, notamment en fonction du nombre de rayons générés, dont dépend la qualité du rendu.
C'est pour cela que cette seconde méthode est encore utilisée aujourd'hui dans les jeux vidéo, afin de disposer d'un rendu en temps réel à plus de 60 ips (et jusqu'à 240 ips pour les plus gourmands) à très haute définition. Un choix impliquant un compromis sur le réalisme du rendu des ombres ou des lumières par exemple, différentes techniques comme l'illumination globale ayant été implémentées pour améliorer les choses.
Le ray tracing était donc jusque-là réservé au marché professionnel, tant pour les rendus d'architectes que les films d'animation ou les effets spéciaux. Des domaines où le CPU règne encore en maître, à coup de journées de rendu par image. Mais le GPU lui grappille de plus en plus de terrain.
RTX doit permettre à NVIDIA d'enfoncer le clou et de commencer à exploiter le ray tracing dans les jeux vidéo, au moins de manière partielle et pour les éléments où il peut apporter le plus. Si vous êtes développeur, vous en apprendrez plus à son sujet via les liens suivants :
- La plateforme NVIDIA RTX
- Introduction à NVIDIA RTX et DirectX Raytracing (DXR)
- Conférence GDC : Ray Tracing in Games with NVIDIA RTX
L'ère du rendu hybride
Malgré les 10 ans passés par NVIDIA à travailler sur la question et l'arrivée de RTX, il fallait toujours plusieurs GPU de la génération Volta pour effectuer un rendu en temps réel de la fameuse démonstration Star Wars d'Epic Games, basée sur l'Unreal Engine.
Turing intègre pour la première fois des RT Cores offrant une forme d'accélération matérielle du ray tracing. De fait, une démonstration comme SOL MAN peut fonctionner sur un seul TU102, mais on est encore loin de la complexité d'un jeu vidéo et d'un rendu haute définition à très haut débit.
Une autre approche est donc privilégiée pour le moment : le rendu dit hybride.
Il croise rastérisation et ray tracing pour profiter de l'efficacité de l'un et du réalisme de l'autre. La visibilité d'un objet et la base du rendu peuvent être effectuées de manière classique, le ray tracing venant apporter une couche de finition.
NVIDIA explique que cette solution peut être utilisée de manière plus fine, pour ne concerner que des objets dont la surface dépasse un certain niveau de réflexion par exemple.
Bienvenue aux RT Cores !
Mais qu'apportent les RT Cores de manière concrète ? L'accélération du ray tracing, c'est un peu comme les NPU, ces puces « accélérant l'intelligence artificielle » : derrière le marketing se cachent des unités de calcul spécialisées.
Ici, c'est le traitement des structures arborescentes dites Bounding Volume Hierarchy (BVH) qui est pris en charge. Elles représentent une manière relativement efficace de décomposer et traiter le rendu d'une scène en ray tracing. Un RT Core exploite donc deux unités aux finalités spécifiques : la première s'occupe du test des bounding box, la seconde du test des intersections entre un triangle et un rayon.
Ainsi, le SM n'a qu'à envoyer le rayon qui sera ensuite traité par le RT Core. Celui-ci analysera sa traversée de la structure BVH et apportera une réponse binaire : intersection ou pas d'intersection. Le SM peut alors prendre le relai et effectuer le reste du traitement en appliquant les différents shaders.
NVIDIA indique que l'utilisation conjointe des RT Cores et des SM permet de multiplier par dix la capacité d'analyse d'une scène. Ce n'est pas encore assez pour faire tourner Battlefield V entièrement en ray tracing, mais suffisant pour améliorer certaines phases de son rendu tout en gardant un niveau de performances correct.
Quelques titres ont d'ores et déjà été annoncés comme exploitant le ray tracing et un rendu hybride tout en bénéficiant de l'accélération matérielle introduite par NVIDIA avec Turing. Les prochains mois devraient être l'occasion de nouvelles annonces mais aussi de nombreuses optimisations de part et d'autre.
Toi aussi, invente ton unité de mesure
NVIDIA exprime la puissance de calcul de ses RT Cores en RTX-OPs, une unité inventée qui doit être le reflet du calcul d'une image tel qu'il se décompose à l'heure des GeForce RTX (certaines tâches étant simultanées) :
- 80 % du temps de rendu via les CUDA Cores
- 40 % du temps de rendu via les RT Cores
- 28 % du temps de rendu via sur des opérations INT32
- 20 % du temps de rendu via les Tensor Cores
Ainsi, une GeForce RTX 2080 Ti affichant 14 TFLOPS (FP32), 14 TIPS (INT32), 114 Tensor FLOPS et 100 TFLOPS sur le RayTraycing obtiendrait un score de 78 RTX-OPs après le calcul suivant :
Score = 14 * 80% + 14 * 28% + 100 * 40% + 114 * 20% = 78 RTX-OPs
L'opération permet de comparer des GeForce et Quadro RTX entre elles mais rien de plus. Il a en effet le défaut d'être assez arbitraire, puisqu'il faut faire confiance à NVIDIA sur la représentativité de la répartition choisie. Mais aussi parce que l'on ne sait toujours pas d'où sort le niveau de performances indiqué en Giga Ray/s ou ce qu'il doit représenter.
Le constructeur part ainsi du principe que l'émulation logicielle de Pascal nécessite 10 TFLOPS par Giga Ray. C'est pour cela que le GP102, capable de traiter 10 Giga Ray/s, disposerait d'un équivalent de 100 TFLOPS.
Mesh, Variable Rate et Texture Space Shading
NVIDIA profite de l'arrivée de Turing pour introduire de nouvelles méthodes de rendu et autres effets. Le Mesh Shading doit ainsi améliorer le traitement des scènes complexes, composées de milliers d'éléments.
Plutôt que des vertex shaders, puis une phase de tessellation et un traitement géométrique, NVIDIA introduit deux nouvelles étapes, les Task Shader et Mesh Shader, au mode de fonctionnement coopératif à la manière des Compute Shaders, censé les rendre plus efficaces.
Les développeurs peuvent ainsi envoyer une liste de nombreux éléments à traiter au Task shader qui les fera suivre au Mesh Shader avant de passer à l'étape de rastérisation. Le Task Shader peut également prendre en charge la décision d'utiliser telle ou telle version d'un objet (différents niveaux de détails par exemple) présent de nombreuses fois dans une scène en fonction de critères, comme son éloignement de la caméra.
Pour NVIDIA, cette solution doit limiter l'impact du CPU sur le rendu en réduisant de manière drastique les draw calls nécessaires dans de telles situations.
Autre technique déjà évoquée par AMD et qui fait l'objet d'un brevet déposé par Microsoft : le Variable Rate Shading. Il permet de ne pas utiliser la puissance de calcul du GPU de manière égale au sein d'une scène pouvant être découpée en différentes zones (jusqu'à 16 x 16 pixels).
Chacune peut se voir appliquer un shader de manière plus ou moins régulière (sept niveaux). NVIDIA met en avant trois algorithmes liés à cette possibilité :
- Content Adaptative Shading : s'applique au détriment de zones où les couleurs évoluent peu
- Motion Adaptative Shading : s'applique au détriment d'éléments en mouvement
- Foveated Rendering : s'applique au détriment de zones éloignées du focus de l'utilisateur
Enfin, il est question du Texture Space Shading (TSS) là aussi déjà évoqué par AMD notamment. Il découple la phase d'analyse de la visibilité et de pixel shading. Cette dernière est appliquée à une texture qui pourra ensuite être utilisée. Elle est par exemple utile dans le cadre de la réalité virtuelle.
NVIDIA précise que la texture calculée pour l'œil gauche pourra être facilement réutilisée pour l'œil droit, seules les zones nécessitant d'être complétées ou modifiées faisant l'objet d'un traitement.
La VR n'est pas morte
La VR fait d'ailleurs l'objet d'optimisations dans Turing, avec par exemple l'introduction du Multi-View Rendering (MVR) venant prolonger l'actuel Simultaneous Multi-Projection (SMP). Cette solution permet de calculer une scène depuis plusieurs points de vue et plusieurs instances d'un personnage dans différentes poses, en une seule passe.
Turing permet de traiter jusqu'à quatre vues par passe (l'API permettant de grimper jusqu'au calcul de 32). Moins limitée que SMP, notamment avec la gestion d'orientations différentes pour chaque vue, MVR permet selon NVIDIA de s'adapter à des casques avec un champ de vision plus large ou le rendu de personnages multiples dans une même scène.
Le constructeur évoque aussi des optimisations à travers l'utilisation du Foveated Rendering (voir ci-dessus) les RT Cores pouvant être exploités pour l'accélération des effets VR Works Audio. Malheureusement, très peu de détails sont donnés par NVIDIA qui se contente d'indiquer que les performances sont multipliées par six.
Bien entendu, il est aussi question d'une autre avancée notable des cartes de cette génération : l'intégration d'un port USB Type-C qui n'est autre qu'un connecteur VirtualLink. Un standard devant se généraliser sur les casques afin de n'utiliser qu'un câble pour le transfert de l'image, des données et l'alimentation.
TU104 et TU106 : déjà deux dérivés
La puce TU102 prendra place dans les GeForce RTX 2080 Ti et Quadro RTX 8000. Mais comme nous l'avons évoqué, deux autres modèles seront également proposés : les TU104 et TU106.
Les habitués de NVIDIA peuvent décrypter ces références et comprendre qu'elles prendront respectivement place dans les GeForce RTX 2080 et Quadro RTX 6000 pour la première et la GeForce RTX 2070 pour la seconde. Pour rappel, celle-ci doit être mise sur le marché en octobre.
Le constructeur a néanmoins dévoilé les caractéristiques et spécificités de ces trois GPU :
- TU102 : 6 GPC, 36 TPC, 72 SM, 18,6 milliards de transistors, 754 mm²
- TU104 : 6 GPC, 24 TPC, 48 SM, 13,6 milliards de transistors, 545 mm²
- TU106 : 3 GPC, 18 TPC, 36 SM, 10,8 milliards de transistors, 445 mm²
Dans les trois cas, un SM intègre 64 CUDA Cores, huit Tensor Cores, quatre unités de texturing, un RT Core, 256 ko de fichier de registre et 96 ko de L1/mémoire partagée. L'équilibre reste donc identique et on ne note qu'une différence majeure : le nombre de liens NVLink x8.
Au nombre de deux (100 Go/s) dans la GP102, il n'y en a qu'un (50 Go/s) dans la GP104 et aucun dans la GP106. La GeForce RTX 2070 ne pourra donc pas gérer le SLI. Pour rappel, un connecteur NVLink est facturé 85 euros pièce.
Voici les caractéristiques de l'ensemble des cartes face à celles de la génération précédente :