in

La technologie Nvidia Ampere RTX-3000 en détail

Tl;dr : Nvidia a annoncé une augmentation considérable des performances des GeForce RTX 3090, 3080 et 3070. Comment les GPU des amplis sont censés gérer cela et de quoi il s’agit avec le nombre plus que doublé de shaders, le fabricant a maintenant expliqué avant l’embargo sur les essais. Les UAL du FP32 sont d’une grande importance.

D’où viennent les sauts de shader et de performance ?

Le GA102-GPU offre un nombre incroyable d’ALU actives sur le nouveau vaisseau amiral GeForce RTX 3090. Nvidia nomme un nombre impressionnant de 10 496 cœurs CUDA et une puissance de calcul théorique de 35,7 FP32 TFLOPS, ce qui, comparé au GeForce RTX 2080 Ti, signifie une augmentation de 141 ou 166 pour cent respectivement – en une génération. Et même les deux plus petits modèles surpassent encore l’ancien modèle haut de gamme. Pendant longtemps, la rumeur a parlé de la moitié des shaders, même les communiqués de presse des partenaires du conseil les contenaient encore.

Après les premières explications sur Reddit, Nvidia a maintenant aussi expliqué lors d’une journée technique virtuelle comment les multiprocesseurs de streaming (SM) d’Ampere ont été reconstruits à partir de Turing pour justifier le nombre maintenant donné et les TFLOPS dérivés. La structure de base d’Ampère est identique à celle de son prédécesseur, seuls quelques détails ont changé – et ceux-ci sont cruciaux. D’autres changements concernent les noyaux RT et Tensor, qui sont maintenant également prêts pour le DLSS 8K.

Ampère avec des changements majeurs dans le SM

Nvidia a conservé le cadre de base : Le GPU est toujours divisé en plusieurs grappes de processeurs graphiques (GPC), qui contiennent l’unité de calcul du GPU. Parmi eux, on trouve les multiprocesseurs de flux (SM) avec les unités de traitement proprement dites, les groupes de traitement des textures (TPC) avec les unités de texture, les unités de géométrie pour la tessellation par exemple et, depuis peu, les POR.

Le cadre de base a subi de sérieux changements. Le SM d’Ampère a été considérablement amélioré par rapport à celui de Turing. Un SM à Turing est principalement composé de 64 UAL FP32 pour les calculs en virgule flottante et de 64 UAL INT32 pour les calculs d’entiers, qui sont à leur tour divisés en quatre blocs de 16 UAL FP32 et 16 UAL INT32 chacun. Le FP et les INT-ALU peuvent fonctionner simultanément.

Il y a toujours 64 unités FP32-ALU pures par SM sur Ampère, mais au lieu des 64 unités INT32-ALU pures, il y en a maintenant 64 autres qui, comme les 64 autres unités ALU, peuvent également effectuer des calculs en virgule flottante et en plus des calculs d’entiers – mais pas en parallèle. Comme auparavant, un Amp SM est divisé en 4 blocs, avec un chemin de données séparé pour 16 FP32 et 16 UAL FP32/INT32 supplémentaires.

Floating Point est le meilleur ami d’Ampère

Ainsi, un SM de Turing peut effectuer simultanément un maximum de 64 calculs FP32 et 64 calculs INT32. Un SM d’Ampère peut toutefois effectuer soit 128 FP32- ou 64 calculs FP32 et 64 calculs INT32 – en fonction de la charge de travail que l’application distribue à la carte graphique Ainsi, selon le scénario, un SM ampère peut avoir la même puissance de traitement qu’un SM Turing (si FP et INT sont calculés simultanément) ou deux fois plus de puissance de traitement (si FP seulement est calculé). C’est la raison pour laquelle la puissance de traitement théorique du FP32 en ampères a plus que doublé par rapport à Turing, et pourquoi Nvidia parle maintenant de deux fois plus d’UAL du FP32 que de noyaux CUDA.

La mesure dans laquelle cette adaptation permet d’obtenir de meilleures performances dans la pratique dépend essentiellement de deux facteurs. La première est la demande elle-même.

En supposant qu’un jeu nécessite principalement des calculs en virgule flottante, un ampli SM sera beaucoup plus puissant en termes de calcul qu’un Turing SM. Si, en revanche, il y a relativement beaucoup de calculs de nombres entiers, la puissance de calcul se rapprochera. D’une vitesse égale à deux fois plus rapide, tout est théoriquement possible et il peut arriver que l’application, que Turing aime particulièrement bien en raison de calculs INT relativement nombreux, les amplis soient un peu moins nombreux, tandis que les titres, où Turing ne profite guère ou pas du tout des unités INT supplémentaires, les amplis sont particulièrement bons. Mais un Ampère SM n’est en aucun cas plus lent qu’un Turing SM.

Un SM à Ampère
Un SM à Ampère (Photo : Nvidia)

Les PME complexes ont besoin de travail

Le deuxième aspect concerne l’utilisation des capacités. Nvidia aime changer la granularité des multiprocesseurs de streaming entre les générations, récemment la complexité a baissé de manière significative. Si un SM sur Kepler avait encore 192 UAL du FP32, à partir de Maxwell, il n’en avait plus que 128. Pour Pascal, il est resté le même et pour Turing, le nombre a été réduit à 64 UAL. L’ampère passe à nouveau à 128 UAL. L’expérience montre que c’est mieux pour une puissance de calcul maximale, mais c’est un défi pour la charge de travail.

La mémoire partagée et le cache L1 de chaque multiprocesseur de streaming jouent un grand rôle pour une meilleure utilisation, qui fonctionne maintenant deux fois plus vite que sur Turing. Le cache L1 a une bande passante de 219 Go/s sur le GeForce RTX 3080 et seulement 116 Go/s sur le GeForce RTX 2080 Super. Dans le même temps, le cache est 33 % plus grand, à 128 Ko au lieu de 96 Ko à Ampère. Les deux visent à garantir que les UAL ont quelque chose à calculer à tout moment.

Les POR sont désormais intégrés dans le GPC

Jusqu’à Turing, les ROP étaient toujours connectés à l’interface mémoire, donc leur nombre diminuait ou augmentait avec l’interface. Cela change à Ampère, où les POR sont également situés dans le GPC. Par GPC, il y a 2 partitions ROP, chacune contenant 8 ROP.

C’est également la raison pour laquelle il y a plus de POR sur les ampères que ce que l’on pensait auparavant. Jusqu’à présent, on pouvait supposer 96 POR pour le GeForce RTX 3090 sur la base de l’ancienne approche. Une partition ROP par interface mémoire 32 bits donnerait 96 ROP pour 12 interfaces. Comme il y a désormais deux partitions ROP par GPC et que le GA102 en compte sept, il y a 14 partitions sur le GA102 et donc 112 ROP, qui sont tous activés sur le produit phare des consommateurs.

Sur le GeForce RTX 3080, une GPC et donc une partition ROP est désactivée, ce qui laisse 96 ROPs, sur le GA104 du GeForce RTX 3070, il y a probablement 4 GPCs et donc 64 ROPs. Les POR eux-mêmes sont tout aussi puissants que dans l’arrangement conventionnel, la raison de la conversion est la meilleure évolutivité.

La carapace en détail

Le grand jeton de jeu GA102 a 7 GPC avec 12 SM chacun. Cependant, tous les SM ne sont pas activés sur le GeForce RTX 3090, car la puce en contient 10 752 (7 GPC * 12 SM * 128 ALU), mais le GeForce RTX 3090 n’offre que 10 496 ALU. Deux SM sont désactivés.

Le GA102 sur le RTX 3080
Le GA102 sur le RTX 3080 (Photo : Nvidia)

Sur la GeForce RTX 3080 avec le même GPU, un GPC est complètement désactivé, sur les six autres, seuls quatre utilisent les 12 SM complets, deux sont réduits à 10 SM. Avec 68 SM, cela donne 8 704 UAL. Le GeForce RTX 2070 avec GA104-GPU utilise un total de 4 GPC, mais deux des 48 SM sont éteints pour atteindre les 5 888 UAL. Les deux SM éteints sont une hypothèse des rédacteurs en chef, mais toute autre hypothèse serait très inhabituelle.

Le cache L2 est plus petit que sur Turing

Le GPU TU102 de Turing fournit un cache L2 de 6 Mo. Récemment, cela s’est développé de génération en génération, mais à Ampere, la cachette rapide semble être devenue plus petite. Le GA104 a un cache L2 de 4 Mo et le GA102 de 5 Mo – du moins pour la GeForce RTX 3080. Nvidia n’a pas encore voulu nommer la taille du cache pour la GeForce RTX 3090, mais généralement le cache L2 des différents modèles reste inchangé.

L’efficacité a augmenté

Nvidia parle d’une performance par watt de 90 % supérieure à celle de Turing avec les amplis, respectivement le GeForce RTX 3080. Mais cette affirmation n’est apparemment vraie que si les deux cartes graphiques sont limitées à la même fréquence d’images – Turing est donc plus lourdement chargé que l’ampère dans ce scénario.

Différentes tensions dans le GPU
Différentes tensions dans le GPU (Photo : Nvidia)

Néanmoins, il y a eu des progrès en matière d’efficacité, et cela n’est pas seulement dû aux nouvelles installations de production. En outre, les systèmes de calcul et de stockage ont reçu deux rails de tension indépendants. Cela présente un avantage : si, par exemple, les unités de shaders nécessitent une tension élevée pour des performances maximales, mais que le système de stockage n’a pas grand-chose à faire, les contrôleurs de mémoire peuvent fonctionner à une tension plus faible – ou inversement. On ne sait pas exactement à quelle fréquence un tel scénario se produit.

Page suivante : RTX, 8K DLSS, FE cooler et spécifications

Partager cet article

Robin Vigneron

Par Robin Vigneron

Robin est un passionné de nouvelles technologies et il n'hésites pas à creuser le web pour vous trouver les meilleurs bons plans et astuce High-Tech !

Neue Firmware für AMD Renoir: MSI veröffentlicht AGESA v2 1.0.8.1 für X570, B550 und A520

Nouveau firmware pour AMD Renoir : MSI lance AGESA v2 1.0.8.1 pour X570, B550 et A520

Orbi Pro WiFi 6 (SXK80): Netgears Profi-Mesh mit Wi-Fi 6 kostet als 2er-Set 870 Euro

Orbi Pro WiFi 6 (SXK80) : le Wi-Fi professionnel 6 mesh de Netgear est disponible au prix de 870 € par lot de 2