Actualités Tech

Architecture GPU Nvidia Ampere et GPU A100

Nvidia A100: Ampere ist für KI eine 20 Mal schnellere GPU‑Architektur

Tl;dr : Nvidia a révélé les premiers détails de la nouvelle architecture GPU Ampere. En tant que successeur de Volta, Ampere est destiné aux applications de centres de données pour la formation et l’inférence en IA. Dans ce scénario, le premier Ampère A100 GPU devrait fournir 20 fois plus de puissance que le Volta. Le premier produit avec A100 est le DGX A100.

Nvidia Ampere n’est d’abord pas pour les joueurs

La nouvelle architecture GPU de Nvidia, Ampere, hérite de l’architecture Volta introduite en 2017 et est une fois de plus un produit pour le centre de données – et non pour les joueurs. Ampere fera également son chemin dans les PC de jeu, mais dans une configuration sensiblement différente. Cela correspond au fait que l’A100 ne soutient pas le raytracing – du moins, Nvidia ne l’a pas mentionné une seule fois. Le PDG de Nvidia, Jensen Huang, a révélé les premiers détails sur l’architecture de l’ampli, le premier GPU A100 et les premiers produits comme le système DGX A100 AI dans un discours enregistré au GTC aujourd’hui, car l’exposition interne à San José a dû être annulée en raison de la pandémie COVID 19. Une plongée technique approfondie dans la nouvelle architecture GPU est prévue pour la semaine prochaine.

Nvidia grandit avec les tâches

Ampere a été développé pour répondre aux besoins en ressources croissants de manière exponentielle de la formation et de l’inférence sur les réseaux neuronaux dans le centre de données, explique Nvidia. Comparé aux réseaux neuronaux précédents tels que ResNet-50 pour la vision artificielle, qui a été utilisé pour introduire Volta il y a trois ans, le Megatron-BERT de Nvidia pour l’alphabétisation est 3 000 fois plus complexe.

Ces nouveaux réseaux neuronaux de plus en plus complexes permettent de multiplier les applications qui pénètrent dans la vie quotidienne, comme les assistants d’IA comme Alexa, l’assistant Google ou Siri. Mais les réseaux neuronaux modernes permettent également d’effectuer des recherches classiques sur Internet, de donner des recommandations pour les achats en ligne, de poser des diagnostics dans le secteur médical, de reconnaître des images ou de se défendre contre la cyberdéfense. Ces applications supportent des millions de requêtes simultanées et doivent fournir à chaque utilisateur une petite partie de la puissance de calcul du centre de données pour l’accélération de l’IA pendant une courte période.

Le centre de données actuel ne fonctionne pas à pleine capacité

Selon Nvidia, ces tendances de réseaux neuronaux de plus en plus complexes, l’augmentation du nombre d’utilisateurs et l’augmentation des interactions IA par jour qui en résulte ont conduit à la fragmentation des centres de données, dont la complexité doit être réduite à nouveau avec ampère. Actuellement, les centres de données se composent de serveurs de stockage, de serveurs CPU, de serveurs de formation à l’IA basés sur Volta, de serveurs d’inférence basés sur Tesla T4, et de serveurs pour les tâches accélérées par GPU en général, qui utilisent Volta dans un format de carte rapide à installer avec une connexion PCIe. Nvidia fait valoir que le type et la quantité de clusters de calcul nécessaires sont difficiles à prévoir pour les opérateurs compte tenu des diverses applications et des différents besoins en fonction de l’heure de la journée, de sorte qu’une optimisation pour une utilisation élevée de la capacité et une exploitation rentable du centre de données est à peine possible.

Mise en place actuelle d'un centre de données commun
Installation courante d’un centre de données (Photo : Nvidia)

L’ampère devrait être beaucoup plus rapide et plus flexible

Avec Ampere, Nvidia veut donc non seulement augmenter massivement les performances, mais aussi créer une architecture flexible pour des cas d’utilisation interchangeables dans un centre de données dynamique qui est équipé pour un large éventail de scénarios modernes. En termes de performances, Nvidia promet, sous certaines conditions, des performances AI 20 fois supérieures à celles de Volta – le plus grand saut entre deux générations d’architecture GPU chez Nvidia à ce jour. Ampere combine également la formation à l’IA et l’accélération par inférence dans une architecture unique. En termes d’évolutivité, un serveur peut être utilisé comme un énorme GPU ou divisé en plus de 50 instances dédiées.

A100-GPU avec 54 milliards de transistors

Le premier GPU de la nouvelle architecture d’ampli est le A100. L’A100 est fabriqué comme Volta chez TSMC, mais maintenant en procédé N7 avec lithographie par immersion (DUV) et possède 54 milliards de transistors sur une surface de 826 mm². C’est plus du double de transistors (21,1 milliards) avec presque la même surface (815 mm²) que le Volta GPU GV100. Le GV100-GPU est également fabriqué à la TSMC, mais selon le procédé FFN de 12 nm. Avec 54 milliards de transistors sur 826 mm², l’A100-GPU est la plus grande puce de 7 nm au monde selon Nvidia. Chaque GPU A100 est soutenu par 40 Go de HBM2 de Samsung avec une bande passante mémoire de 1,6 TB/s – soit plus de 70 % de plus que les 900 Go/s de Volta pour le GV100. La communication GPU à GPU se fait à Ampere via le NVLink de 3e génération, deux fois plus rapide, avec 600 GB/s.


Nvidia A100-GPU
Nvidia A100 GPU

A100-GPU basé sur l'architecture Ampere
A100-GPU basé sur l’architecture Ampere

A100 et GV100 en un coup d’œil

Nvidia expliquera plus en détail les détails techniques de la conception exacte du GPU A100 dans le courant de la semaine prochaine. Jusqu’à présent, les données clés mentionnées ci-dessus et les suivantes sont connues : Le GPU est équipé de 432 cœurs tenseurs de 3e génération, offre 108 ampères de multiprocesseurs de flux (SM) et donc 24 de plus que la configuration complète du GV100 avec ses Volta-SM. Chaque SM de l’A100 est livrée avec 64 noyaux FP32 et 32 noyaux FP64 entre autres. Mais il n’y a qu’une fraction des données techniques complètes, car un livre blanc n’est pas encore disponible. Nvidia veut répondre à des questions ouvertes plus tard dans une plongée profonde dans l’architecture. Nvidia n’a pas encore révélé si le A100 est déjà la version complète ou une version réduite du premier GPU d’ampli en faveur d’un meilleur rendement.

Lorsque Nvidia parle d’une puissance de calcul 20 fois supérieure pour les ampères par rapport à la Volta, la société fait référence aux noyaux tenseurs et à leurs opérations de calcul matriciel (MAD) pour le FP32 et l’INT8, qui sont utilisés comme standard pour la formation et l’inférence en IA. Le FP32 aurait une puissance de calcul maximale de 312 TFLOPS, tandis que l’INT8 a 1 248 TOPS – dans les deux cas environ 20 fois plus que le GV100 basé sur l’architecture Volta. Pour le MAD FP64 de double précision, la performance des noyaux tenseurs est de 19,5 TFLOPS, soit 2,5 fois celle de la Volta.

Les noyaux CUDA jouent un rôle subordonné

Alors que les performances de l’IA sur les cœurs tenseurs augmentent massivement et que l’architecture semble se concentrer sur ce domaine, les performances classiques des cœurs CUDA FP64 et FP32 augmentent moins fortement. Au plus fort, les chiffres sont de 9,7 TFLOPS pour le 64e PC (+ 24 %) et de 19,5 TFLOPS pour le 32e PC (+ 24 %).

L’A100 fonctionne avec un cycle modéré

Sur la base du nombre d’unités d’exécution et de la performance de pointe théorique, la fréquence d’horloge de l’A100 peut être calculée, même si Nvidia n’en nomme officiellement aucune. Elle doit donc se situer autour de 1.410 MHz. Cependant, il n’est pas encore clair si l’A100 peut éventuellement fonctionner au-dessus de cette valeur pendant une courte période ou si c’est le maximum.

Nvidia calcule le FP32 plus rapidement que le TF32

La puissance de calcul 20 fois plus élevée est le résultat de la troisième génération de cœurs tenseurs avec une nouvelle accélération de la rareté – plus d’informations à ce sujet plus tard. Les cœurs tenseurs de troisième génération prennent en charge TF32, un nouveau format de nombre pour les opérations de calcul à addition multiple introduit par Nvidia. Comme le FP32, TF32 fournit 8 bits pour l’exposant et comme le FP16 10 bits pour la mantisse. Nvidia veut créer un nouveau format hybride pour traiter les variables de 8 bits comme le FP32 de simple précision avec la précision de 10 bits de demi-précision comme le FP16. TF32 est utilisé par défaut à Ampère pour accélérer le FP32 de précision unique en combinaison avec la nouvelle accélération de la sparsity. Selon Nvidia, les développeurs devraient toujours pouvoir utiliser le FP32 de précision unique en entrée et continuer à recevoir le FP32 de précision unique en sortie. Le code ne devrait pas avoir à être modifié pour la nouvelle accélération de l’IA.


Nouvelle norme MAD TF32
Nouvelle norme MAD TF32

Les noyaux tenseurs de la 3ème génération
Les noyaux tenseurs de la 3ème génération

Éclaircir les réseaux de neurones

Avec l’accélération de la rareté, Nvidia veut se débarrasser des connexions souvent inutiles d’un réseau de neurones qui ne contribuent pas à une prédiction précise. La matrice dense du réseau de neurones doit être convertie en une matrice amincie (clairsemée) et exécutée plus efficacement et plus rapidement. L’A100 et ses noyaux tenseurs de 3ème génération ont été optimisés pour cette faible accélération, qui est utilisée dans TF32, FP16, BFLOAT16, INT8 et INT4.

Accélération de la rareté pour une performance de l'IA jusqu'à 20 fois supérieure
Accélération de la dispersion pour des performances d’IA jusqu’à 20 fois supérieures (image : Nvidia)

Cela explique à son tour l’immense bond en avant des performances du FP32 et de l’INT8 en termes d’ampères, qui n’est disponible que lorsque le nouveau format de numéro TF32 et l’accélération de l’économie sont utilisés. Cela transforme 16 TFLOPS pour le FP32 sur le GPU GV100 en 160 TFLOPS pour le TF32 (en tant que nouvelle norme pour les opérations du FP32) sur le GPU A100. Et avec l’accélération parcimonieuse, cela devient à son tour les 312 TFLOPS propagés 20 fois plus élevés avec la TF32 de réserve. Il en va de même pour les opérations INT8 en inférence, qui passent de 60 TOPS sur le GV100 à 625 TOPS sur l’A100 et enfin 1 248 TOPS sur l’A100 avec l’INT8 parcimonieuse. Comme la nouvelle accélération ne s’applique pas au FP64 de double précision, cela explique également le saut relativement faible d’un facteur de 2,5 à 19,5 TFLOPS. Cela explique également pourquoi l’A100, avec seulement 432 noyaux tenseurs au lieu de 672 au GV100, agit toujours beaucoup plus rapidement.

Performance de l'IA 20 fois plus élevée pour le FP32 avec TF32 et INT8
20 fois plus de performances de l’IA pour le FP32 avec TF32 et INT8 (Photo : Nvidia)

Probablement 5 piles de HBM2 et un mannequin

Nous avons purement imagé l’A100 vu, détecte 6 piles HBM2. Il est étonnant de voir comment le matériel devrait avoir 40 Go de mémoire, avec six piles, cela ne serait pas possible sans problème. Nvidia ne dit rien à ce sujet pour l’instant – cela n’arrivera que la semaine prochaine – mais apparemment l’A100 n’a pas du tout 6 piles HBM2, mais seulement 5 d’entre elles et une pile factice pour compenser la pression de contact du refroidisseur. Avec 5 piles et 8 Go par pile, vous obtenez 40 Go de mémoire. L’interface mémoire aurait alors une largeur de 5 120 bits (1 024 bits par pile), de sorte que la mémoire du HBM2 devrait fonctionner à 1 250 MHz pour atteindre 160 TB/s.

7 GPU dédiés sur un A100

De plus, le GPU multi-instance (MIG) est l’une des innovations majeures de l’architecture Ampère. Chaque A100 peut être divisé en un maximum de sept GPU dédiés, car toutes les applications ne nécessitent pas la pleine puissance de l’ensemble du GPU. Le fait que plusieurs instances puissent fonctionner sur un GPU n’est pas nouveau pour Nvidia en soi, même Volta le permet, mais Ampere introduit pour la première fois que des ressources matérielles dédiées sont allouées à chacun de ces GPU. Selon Nvidia, chaque instance possède ses propres cœurs Tensor et CUDA, son propre cache, son propre HBM2 et sa propre bande passante mémoire, ce qui devrait empêcher les interférences entre les différents GPU ou applications de s’épuiser. Chaque instance de GPU doit agir comme un GPU indépendant du point de vue de l’application.

MIG jusqu'à sept GPU par A100
MIG jusqu’à sept GPU par A100 (Photo : Nvidia)

Si un GPU A100 peut être divisé en un maximum de sept GPU, cela fonctionne également dans le sens inverse et plusieurs GPU de plusieurs serveurs peuvent être reliés pour former un grand cluster de calcul. Pour éviter un goulot d’étranglement dans ce processus, Nvidia a doublé la communication GPU-à-GPU de 300 GB/s à 600 GB/s avec une nouvelle génération de NVLink. En utilisant le NVSwitch comme un commutateur pour plusieurs NVLinks, une bande passante bidirectionnelle allant jusqu’à 4,8 To/s est disponible, comme requis dans le premier produit avec GPU A100, le Nvidia DGX A100.

Page suivante : Le DGX A100 est équipé de neuf GPU A100

Partager cet article
Robin Vigneron

About author
Robin est un passionné de nouvelles technologies et il n'hésites pas à creuser le web pour vous trouver les meilleurs bons plans et astuce High-Tech !
Articles