Actualités Tech

Nvidia GA100 (ampères) en détail

Nvidia Ampere: Die GA100-GPU im Vollausbau analysiert

Tl;dr : L’A100 de Nvidia, premier produit à architecture ampère, est conçu pour les calculs d’IA dans le centre de données. La base est le gigantesque GPU GA100 de 826 mm². L’article clarifie – dans la mesure du possible – ce que sa configuration complète a à offrir, comment elle se compare à la Volta et ce qui peut être dérivé des amplis pour la GeForce.

GA100 : La surprise derrière l’A100

En fait, tout était clair : jeudi après-midi, la présentation de Nvidias pour le centre de données et là, en particulier pour la formation à l’IA et la déduction de l’accélérateur A100 prévu devrait avoir lieu. Tech Astuce avait reçu à l’avance des informations de Nvidia dans le cadre de la NDA pour préparer un article. Le fait qu’il n’y ait eu que relativement peu de détails sur sa technologie était surprenant. Mais il semble clair que le thème de la conférence sera l’A100, et seulement l’A100 dans ses différentes versions. Mais c’est arrivé différemment.

Parallèlement à la présentation de l’A100, Nvidia a également publié sur le net un article complet sur l’A100, qui en a révélé beaucoup plus sur la nouvelle architecture Ampere. Il s’est avéré que le GPU de l’A100 ne s’appelle pas du tout A100, mais que le fabricant suit l’ancien schéma et l’a nommé GA100. Et à ce GPU exactement, il y avait aussi des détails techniques détaillés.

Il n’est pas surprenant que l’A100 n’ait pas utilisé la totalité du GPU du GA100. C’était également le cas avec les GPU Tesla V100 et GV100, et c’est aussi la règle dans ce segment : surtout avec des GPU aussi énormes, il peut arriver rapidement que toutes les unités ne fonctionnent pas correctement. Ce qui est inhabituel avec le GA100, cependant, c’est que Nvidia a éteint 15 % de toutes les unités – y compris une pile HBM2 entière comprenant des puces de mémoire et de la bande passante. La réduction est énorme, et le fait de savoir qu’elle rend automatiquement le GA100 un peu plus impressionnant que ne l’était déjà le A100.

Il s’agit du GA100 entièrement activé

Le GA100 est un GPU géant : il occupe 826 mm², est fabriqué selon le procédé N7 à la TSMC et contient 54,2 milliards de transistors. Un AMD Ryzen Threadripper 3990X avec 64 cœurs répartis sur 8 matrices de CPU et une matrice d’E/S ne fait « que » 40 milliards. Par rapport à Volta, le nombre a plus que doublé. Il était donc tout à fait raisonnable de se demander si les nombreuses améliorations de l’IA de l’A100 nécessitaient à elles seules autant de transistors. Maintenant que l’on sait ce qui se cache réellement derrière le GA100, les chiffres prennent soudain beaucoup plus de sens.

Nvidia GA100 - schéma fonctionnel
Nvidia GA100 – Schéma fonctionnel (Image : Nvidia)

En effet, le GA100 possède plus que les 108 multiprocesseurs de streaming et donc les 6 912 ALU du FP32 de l’A100. Il y a même 128 SM et donc 8 192 UAL. Cela permettrait d’activer 18 % d’unités d’exécution supplémentaires si elles sont intactes et souhaitées. Le GA100 dispose donc automatiquement non seulement de plus d’ALU FP32, mais aussi de beaucoup plus d’unités à l’échelle. Les sept grappes de traitement graphique (GPC, un bloc de calcul complet composé d’ALU, de TMU et bien plus encore) deviendront 8, 3 456 ALU FP64 deviendront 4 096, 432 noyaux tenseurs deviendront 512, 432 unités de texture deviendront 512 et l’ensemble du bloc géométrique, y compris les caches connectées aux SM, sera proportionnellement plus grand. Et ce n’est pas tout, car l’A100 est loin d’être le meilleur en termes de mémoire.

Alors que le A100 n’offre « que » 5 piles HBM2 de 8 Go chacune et une interface mémoire d’un total de 5 120 bits (1 024 bits par pile), le GA100 peut également gérer 6 piles de 48 Go et 6 144 bits. Cela signifie que les réserves en mémoire sont encore plus importantes que dans les unités de calcul : 20 %.

Pourquoi tant de choses sont-elles désactivées ?

La question se pose de savoir pourquoi Nvidia a désactivé autant d’unités. Cela ne peut pas être clarifié à ce stade, il n’y a pas de déclarations officielles. Deux motivations sont possibles : d’une part, Nvidia utilise certainement aussi des amplis pour se passer de ce que les Californiens ont fait avec les dernières générations de GPU professionnels : A la pleine expansion, de sorte que les puces partiellement défectueuses puissent encore être vendues.

Cela est particulièrement recommandé pour les puces énormes et complexes comme le GA100, car le même nombre de défauts de production par plaquette affecte une plus grande proportion des GPU de la plaquette. Cependant, il est inhabituel de se contenter d’éteindre un cinquième de la puce.

Dans le prédécesseur de la Volta, le GV100, 80 des 84 SM étaient activés et donc seulement 5 % des unités étaient éteintes. Même si Nvidia aurait besoin d’un tampon plus important en raison des différents procédés de fabrication, le tampon du GA100 semble trop important. En outre, cela n’expliquerait pas pourquoi même une pile de HBM2 n’est pas occupée. Car cela réduit énormément la largeur de bande de la mémoire, qui est si importante dans le segment HPC.

Nvidia GA100 SM - Schéma fonctionnel
Nvidia GA100 SM – Schéma fonctionnel (Image : Nvidia)

Par conséquent, un deuxième contexte semble tout à fait réaliste : l’A100 ne sera qu’un début avec le GA100 et Nvidia prévoit une version encore plus rapide de la carte graphique professionnelle à l’avenir. Quasi le super modèle pour les professionnels. C’est assez inhabituel dans ce segment, mais il y a un début à tout à un moment donné. Et cela ne contredit pas l’argument de la commission. Peut-être que la production de l’énorme GPU en 7 nm est encore un peu problématique pour le moment, mais Nvidia s’attend à ce qu’elle devienne bien meilleure à l’avenir. Jusque-là, on pouvait vendre beaucoup d’A100 et, avec un meilleur rendement, on aurait le marché pour un « A200 » plus tard.

Ampère contre Volta vue d’en haut

Nvidia n’a apporté aucun changement à la structure de base d’Ampère par rapport à Turing – selon l’état actuel des choses. La division de la GPU en GPC, TPC et SM est restée la même et cela s’applique également aux unités de ces catégories supérieures. Ainsi, le schéma fonctionnel est très similaire à celui de Turing.

Améliorations du cache

Nvidia a apporté quelques améliorations au cache du GA100. Par exemple, le cache L1 et la mémoire partagée par SM sont passés de 128 à 192 Ko par rapport à Volta. Au total, le cache L1 du seul GA100 atteint presque 25 Mo. Le cache est également censé être devenu plus rapide, mais Nvidia ne donne aucun détail à ce sujet.

Le cache L2 fait un bond encore plus grand. Alors que la mémoire cache de Volta était de 6 Mo, celle du GA100 est de 40 Mo, soit presque sept fois plus. Le cache L2 est divisé en deux partitions différentes, ce qui améliore la bande passante et les temps d’accès. Nvidia a également modifié la barre transversale du cache, qui relie le cache rapide aux SM, de sorte que le taux de lecture du cache devrait être 2,3 fois plus élevé qu’avec Volta. En outre, il devrait maintenant être plus facile pour le programmeur de déterminer quelles données doivent se trouver dans le cache et lesquelles ne doivent pas s’y trouver.

Les noyaux tenseurs sont maintenant 4 fois plus rapides qu’avec Volta

Il semble étonnant que le A100 avec seulement 432 noyaux tenseurs puisse calculer des matrices beaucoup plus rapidement à une fréquence d’horloge plus basse que son prédécesseur Tesla V100 avec Volta avec 640 noyaux tenseurs. Mais le message est clair : les noyaux tenseurs sont beaucoup plus rapides.

Volta (et Turing) possède 8 noyaux tenseurs par SM, chacun d’eux pouvant effectuer 64 FMA (Mixed-Precision Fused Multiply-Add) FP16/FP32. Chez Ampere, il n’y a que 4 noyaux tenseurs par SM, mais ils peuvent effectuer 256 opérations FMA FP16/FP32 par horloge. Ainsi, malgré la moitié seulement du nombre de noyaux tenseurs par SM, la puissance des puces en ampère a doublé par rapport à son prédécesseur. Comme le GA100 a également plus de SM, cela se traduit par une augmentation significative des performances de l’IA.

Pour plus de détails sur les capacités d’IA d’Ampère, nous vous recommandons de lire le rapport sur le dérivé A100.

Le calcul de graphiques est possible, mais pas le traçage de rayons

Il semble actuellement certain que le nouveau GPU professionnel d’AMD, Arcturus, ne sera pas capable de calculer des graphiques et se concentrera uniquement sur les tâches HPC. Ce n’est pas le cas avec Ampère, du moins Nvidia parle-t-il aussi de « rendu graphique » et de « jeu en nuage ». En outre, le schéma fonctionnel indique les unités de texture nécessaires pour le jeu. Certes, les unités de géométrie ainsi que les POR, qui sont également nécessaires au calcul des graphiques, font défaut. Mais Nvidia s’est déjà passé de leur représentation dans le schéma fonctionnel de Volta. Ils sont donc probablement là, mais ne jouent pas de rôle dans le champ d’application de l’A100.

Ce qui manque également dans le schéma fonctionnel du GA100, ce sont les unités de traçage des rayons. Nvidia a entre-temps confirmé que le GA100 n’a pas d’unités de traçage de rayons. Il en va de même pour l’unité vidéo NVENC. Nvidia donne comme raison que les deux ne sont tout simplement pas nécessaires dans l’utilisation du HPC. Il en va de même pour la surveillance des connexions.

Que signifie le GA100 pour les joueurs ?

Le GA100, avec sa taille, sa masse d’unités d’exécution et ses grandes caches, est sans aucun doute passionnant. Mais avec l’introduction d’Ampere, la question se pose de savoir ce que l’on peut tirer du GPU professionnel pour la série de cartes graphiques de lecteur GeForce avec le « GeForce RTX 3080 Ti », qui est déjà utilisé comme titre dans de nombreux endroits ? Si l’on est honnête, la réponse est : beaucoup de peu.

Les nouvelles cartes graphiques GeForce RTX (et GTX ?) seront également basées sur des amplis, les bases entre les GPU pour les professionnels et les joueurs sont les mêmes. C’était la même chose avec Volta et Turing. Toutes les améliorations apportées aux amplis dans les domaines liés aux GPU de jeux seront également accessibles aux joueurs. Aujourd’hui, par exemple, les améliorations des noyaux tenseurs (DLSS, denoising at RTX) et du cache. Mais ce qui est encore complètement flou, c’est de savoir dans quelle mesure les UAL se sont éloignées des noyaux du tenseur et quels sont la vitesse et le nombre de noyaux de la RT. On ne sait pas non plus si quelque chose est arrivé au front-end, aux unités de géométrie, aux TMU ou aux ROP. Il est également possible de savoir si le procédé 7 nm du TSMC est utilisé, et si oui, sous quelle forme, mais ce n’est qu’une supposition.

Ce qui est certain, c’est que « Gaming-Ampere » aura une configuration complètement différente de celle de Profi-Ampere. La carte graphique du joueur aura donc certainement beaucoup moins d’unités de shaders et tout ce qui va avec. En revanche, la fréquence d’horloge augmentera certainement de manière significative et sera à nouveau au moins d’environ 2,0 GHz au lieu de 1 410 MHz pour l’A100. Il y aura probablement aussi de grosses coupures dans les caches.

Pratiquement tout est susceptible de changer en termes de mémoire. Le lecteur n’obtiendra pratiquement pas le HBM2, mais il utilisera probablement une mémoire GDDR6 rapide de 18 Gbps (9.000 MHz). La bande passante de la mémoire sera donc beaucoup plus faible, mais elle devrait être suffisante pour les jeux.

Comment le traçage des rayons va changer est encore un mystère

Alors que le GA100 se passe complètement d’unités de traçage de rayons, les ramifications du GeForce RTX-3000 vont certainement s’améliorer considérablement à cet égard par rapport à Turing. Reste à savoir si cela signifie simplement plus de noyaux RT, des noyaux RT sensiblement améliorés, les deux, ou éventuellement quelque chose comme les noyaux tenseurs (moins de noyaux, mais bien meilleurs).

La date de publication est et reste également floue. Actuellement, tout indique encore qu’il y aura un lancement sur le marché cette année. Mais on ne sait pas encore si cela se produira au troisième ou (plus probablement) seulement au quatrième trimestre. Tech Astuce reprendra les rumeurs fondées sur ce sujet au cours des prochains mois, mais ne poursuivra pas chaque fuite supposée authentique vers le GeForce RTX 3000.

Cet article était intéressant, utile ou les deux ? Les éditeurs apprécieraient tout soutien sous forme de désactivation des bloqueurs d’annonces ou d’un abonnement à Tech Astuce Pro. En savoir plus sur la publicité sur Tech Astuce.

Partager cet article
Robin Vigneron

About author
Robin est un passionné de nouvelles technologies et il n'hésites pas à creuser le web pour vous trouver les meilleurs bons plans et astuce High-Tech !
Articles