in

Ampère: Nvidia équipe l’A100 de 80 Go HBM2e

Nvidia propose désormais le « A100 Tensor Core GPU » basé sur l’architecture Ampere avec 80 au lieu de 40 Go de mémoire. Le passage de HBM2 à HBM2e permet à Nvidia d’installer deux fois plus de mémoire sur le même module SXM4 qu’au printemps. Les modèles particulièrement grands bénéficient de plus de mémoire lors de la formation à l’IA.

Après que l’architecture Ampère se soit récemment concentrée sur les cartes graphiques GeForce RTX 3000 pour les joueurs, Nvidia se consacre à nouveau au segment du calcul intensif, pour lequel la nouvelle architecture a été initialement présentée en mai de cette année. Lors de l’exposition interne de GTC, Nvidia a présenté le «A100 Tensor Core GPU» comme le premier produit basé sur le GPU GA100. Aujourd’hui, la prochaine étape du calcul intensif suit avec le nouveau « GPU A100 80 Go ». L’annonce de Nvidia fait partie de SC20, qu’AMD utilise également pour introduire Instinct MI100 pour le même segment et une feuille de route mise à jour pour Epyc Gen3.

HBM2e avec 16 Go par pile de stockage

Le «GPU A100 80 Go» a fondamentalement une structure comparable au «GPU A100 Tensor Core» car les modifications du matériel sont limitées à la mémoire. Dans ce cas, Nvidia passe de HBM2 à HBM2e pour la nouvelle variante. Chez HBM2e, une pile de mémoire comprend jusqu’à huit puces de 16 Gbit empilées les unes sur les autres, de sorte que jusqu’à 16 Go sont désormais possibles avec une seule pile au lieu des 8 Go de HBM2, qui étaient déjà utilisés chez Volta. Comme pour le « A100 Tensor Core GPU », il y aurait six piles HBM2e rassemblées autour du GPU, mesurées dans l’image, mais en fait, il y a cinq piles de 16 Go chacune, ce qui donne un total de 80 Go, et une pile factice pour compenser la pression de contact du grand refroidisseur passif.

Nvidia A100 avec 80 Go HBM2e (Image: Nvidia)

Samsung et SK Hynix proposent HBM2e

HBM2e est actuellement fabriqué par Samsung et SK Hynix, Samsung promouvant un débit de données de 3,2 Gbit / s et SK Hynix de 3,6 Gbit / s par broche. La bande passante mémoire pour une pile mémoire complète est donc de 410 Go / s ou 460 Go / s. Le fournisseur de confiance Nvidia peut être vu à partir de la bande passante mémoire annoncée, qui est disponible pour le « GPU A100 80 Go » sur « 2 To / s +«Selon Nvidia. Avec cinq piles de stockage de 410 Go / s chacune, Nvidia brise la marque correspondante avec 2,002 To / s, alors qu’avec le stockage de SK Hynix, il aurait été un peu moins de 2,25 To / s.

Si la mémoire est épuisée, 80 Go sont un avantage

Les modèles particulièrement grands devraient bénéficier de la mémoire doublée pendant l’entraînement à l’IA. Même lors de la présentation d’Ampère, il a été dit que l’architecture avait été développée pour les besoins en ressources croissants de façon exponentielle de la formation des réseaux de neurones et de l’inférence dans le centre de données. De volta à ampère, certains réseaux de neurones seraient 3 000 fois plus complexes. Et c’est précisément pour cette complexité accrue que le «GPU A100 80 Go» est conçu, qui est censé offrir un net avantage en cas d’exigences particulièrement élevées si le «GPU A100 Tensor Core» ne dispose plus de suffisamment de mémoire disponible pour les calculs.

Nvidia parle de « énormes demandes«À la mémoire, par exemple pour la formation à l’IA dans les modèles de systèmes de recommandation dans les boutiques en ligne, y compris DLRM (Deep Learning Recommendation Models) avec des tables pour des milliards d’utilisateurs et de produits. Par rapport à la version 40 Go, la version 80 Go devrait offrir une augmentation de vitesse pouvant aller jusqu’à un facteur de trois, afin que les entreprises puissent recycler ces modèles plus rapidement pour des recommandations plus précises.

Nvidia est basé sur des modèles toujours plus grands

Nvidia est basé sur des modèles toujours plus grands

Croissance dans des modèles particulièrement grands

Croissance dans des modèles particulièrement grands

Parce qu’avec le «GPU A100 80 Go», jusqu’à 640 Go peuvent désormais être proposés dans un DGX A100 ou HGX A100 avec jusqu’à huit modules SXM4, les textes peuvent être écrits avec seulement quelques-uns avec des modèles de langage tels que le GPT-2, qui a été formé dessus Pour compléter indépendamment les lignes données, le réseau de neurones artificiels peut désormais être utilisé avec beaucoup plus de paramètres, sans avoir besoin de parallélisation sur plusieurs nœuds, ce qui pourrait potentiellement représenter un goulot d’étranglement. Il en va de même pour les calculs sur sept instances GPU subdivisées, chacune disposant désormais de 10 Go de mémoire disponible. Dans le modèle RNN-T pour la reconnaissance vocale, l’inférence devrait augmenter de 25% sur une instance GPU.

Des benchmarks de l’ordre du téraoctet pour l’analyse des données dans le commerce de détail confirment que le « GPU A100 80 Go » a doublé sa vitesse. Dans les applications scientifiques telles que les prévisions météorologiques ou la chimie quantique, Nvidia s’attend également à des gains massifs par rapport à la version précédente avec 40 Go. Quantum Espresso, une suite de calculs de structure électronique et de modélisation de matériaux, atteint presque le double du débit sur un seul nœud avec « A100 80GB GPU ».

GPU avec 54,2 milliards de transistors

Outre les modifications apportées à la mémoire et les nouvelles options pour les multiples instances de GPU qui en dérivent, le «GPU A100 80 Go» reste le produit connu depuis mai. Le GPU GA100 sous-jacent, qui est utilisé avec une désactivation partielle, est à nouveau fabriqué par TSMC selon Volta, mais maintenant dans le processus N7 avec lithographie par immersion (DUV). Avec 54,2 milliards de transistors sur 826 mm², le GPU GA100 est la plus grande puce 7 nm au monde, selon Nvidia. La communication GPU-GPU a lieu à Ampère via le NVLink deux fois plus rapide de la troisième génération avec 600 Go / s.

La puissance de calcul augmente avec l’accélération TF32 et Sparsity

La puissance de calcul disponible ne change pas en raison du doublement de la mémoire, à moins que les scénarios d’application spéciaux décrits ne soient impliqués, où des augmentations massives sont à prévoir dans certains cas. Le «GPU A100 80 Go» a également atteint 9,7 TFLOPS pour FP64, 19,5 TFLOPS pour FP32, 312 TFLOPS pour FP16 et 624 TOPS pour INT8. Pour le FP32 simple précision, Ampere utilise le format de nombre TF32 introduit par Nvidia pour les opérations arithmétiques à ajout multiple sur la troisième génération de cœurs de tenseur en standard.

Accélération de parcimonie pour des performances d'IA jusqu'à 20 fois plus élevées
Accélération de parcimonie pour des performances d’IA jusqu’à 20 fois plus élevées (Image: Nvidia)

Avec TF32, comme avec FP32, 8 bits sont disponibles pour l’exposant et, comme avec FP16, 10 bits sont disponibles pour la mantisse. Avec cela, Nvidia souhaite créer un nouveau format hybride afin de pouvoir traiter des variables 8 bits comme dans le FP32 simple précision avec la précision 10 bits demi-précision comme dans le FP16. Ceci, à son tour, est combiné avec l’accélération parcimonieuse avec laquelle Nvidia veut se débarrasser des connexions de réseau neuronal qui ne sont souvent pas nécessaires et qui ne contribuent pas à la prédiction exacte. La matrice densément entrelacée du réseau neuronal doit être convertie en une matrice amincie (clairsemée) et exécutée plus efficacement et plus rapidement. L’A100 et ses noyaux tenseurs de troisième génération ont été optimisés pour cette accélération parcimonieuse, qui est utilisée dans les TF32, FP16, BFLOAT16, INT8 et INT4.

Puissance de calcul élevée avec TF32 et accélération parcimonieuse
Puissance de calcul élevée avec TF32 et accélération parcimonieuse (Image: Nvidia)

Cela explique à son tour l’immense saut de performance des FP32 et INT8 à Ampère, qui n’est disponible que lorsque le nouveau format de nombre TF32 ou l’accélération parcimonieuse sont utilisés. Les 16 TFLOPS pour FP32 sur le GV100-GPU deviennent 160 TFLOPS pour TF32 (en tant que nouveau standard pour les opérations FP32) sur l’A100-GPU. Et avec la nouvelle accélération de parcimonie, le 312 TFLOPS propagé 20 fois plus haut avec Sparse TF32 sera réalisé. Le même principe s’applique aux opérations INT8 en inférence, qui passe de 60 TOPS avec GV100 à 625 TOPS avec A100 et enfin 1.248 TOPS avec A100 avec Sparse INT8.

Commutateur DGX A100 et HGX A100 à 80 Go

Le « GPU A100 80 Go » devrait être disponible ce trimestre sur le serveur IA de Nvidia DGX A100 et la nouvelle DGX Station A100 – plus d’informations à ce sujet dans un article séparé. La disponibilité sur les serveurs avec HGX A100 est prévue pour le premier semestre 2021. HGX A100 est la plate-forme de Nvidia avec laquelle des partenaires tels qu’Atos, Dell, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta et Supermicro peuvent proposer leurs propres serveurs dans des configurations avec quatre ou huit «GPU A100 80 Go».

ComputerBase a reçu des informations sur cet article de Nvidia sous NDA. La seule exigence était la date de publication la plus proche possible.

Partager cet article

Robin Vigneron

Par Robin Vigneron

Robin est un passionné de nouvelles technologies et il n'hésites pas à creuser le web pour vous trouver les meilleurs bons plans et astuce High-Tech !

Rumeurs GPU: la GeForce RTX 3060 Ti bat la GeForce RTX 2080 Super 13

Rumeurs GPU: la GeForce RTX 3060 Ti bat la GeForce RTX 2080 Super

GOG: Offres sans boucherie et polonaise 14

GOG: Offres sans boucherie et polonaise