Blackwell Ultra: Nvidia GB300 tiene 288 GB HBM3e y 1,4 kW por GPU

Blackwell Ultra: Nvidia GB300 tiene 288 GB HBM3e y 1,4 kW por GPU 46 comentarios

Imagen: NVIDIA

Los datos técnicos para la actualización a Blackwell Ultra provienen de la cadena de suministro taiwanesa. Nvidia ya había anunciado en el Computex de junio la actualización de mitad de ciclo de la arquitectura Blackwell, y ahora se desvelan detalles del GB300 como la cantidad de HBM3e instalada (288 GB) o el consumo por GPU (1.400 vatios).

El fabricante anunció a los inversores hace aproximadamente un año que Nvidia aceleraría el ritmo de introducción de nuevas soluciones para la supercomputación de IA. Durante el discurso de apertura de Computex en junio de este año, el CEO Jensen Huang fue sorprendentemente abierto y le dio a la audiencia un vistazo de los sucesores de Blackwell, Blackwell Ultra, Rubin y Rubin Ultra para los próximos años.

Resumen :

Blackwell Ultra con 288 GB HBM3e

Como resultado, la actualización de mitad de ciclo del Blackwell Ultra está prevista para el próximo año. Nvidia ya había anunciado oficialmente la función “8S HBM3e 12H” para este propósito. Esto significa que se utilizan 8 pilas HBM3e de 12 capas cada una. Se espera que la expansión de la memoria por GPU aumente de los 192 GB actuales a 288 GB, informa el Economic Daily de Taiwán con referencia a la cadena de suministro.

Sin embargo, la cifra de 288 GB no es sorprendente, ya que Blackwell (sin Ultra) utiliza actualmente 8 pilas de HBM3e, cada una con 8 capas, lo que lleva a 192 GB un 50% más de capas con Blackwell Ultra significa un 50% más de memoria y por lo tanto 288 GB. .

El TDP aumenta moderadamente

El informe del Economic Daily se centra principalmente en el GB300, el sucesor del superchip GB200. Así llama Nvidia a la tarjeta con dos GPU B200 y una CPU Grace. 36 de estas tarjetas conforman el GB200 NVL72, un rack denso refrigerado por agua con 72 GPU Blackwell, 36 CPU Grace, 13,5 TB HBM3e y hasta 1440 PetaFLOPS de rendimiento (FP4 Tensor Core Sparse). Cada tarjeta Superchip tiene un TDP configurable de 2.700 vatios. Esto es importante cuando se trata de Blackwell Ultra.

El artículo enumera un TDP de 1400 vatios para la GPU B300. Parece mucho, pero no es mucho más que 200 B. Dos GPU Blackwell Ultra alcanzarían un máximo de 2.800 vatios, y luego habría que añadir la CPU Grace y otros componentes de la tarjeta para poder comparar el consumo con el anterior Superchip GB200. Es previsible que el consumo por tarjeta será mayor, pero la diferencia no será dramática si la comparamos con el aumento de rendimiento. El rendimiento del FP4 aumentaría en un 50% a 2160 PetaFLOPS con Blackwell Ultra cuando se utiliza una aceleración escasa.

LPCAMM para el procesador Grace

Además del HBM3e de las GPU, en cada Superchip GB200 también están soldados 480 GB de LPDDR5X para el procesador Grace. La próxima generación introducirá el LPCAMM modular, pensado desde el principio para portátiles, ordenadores de sobremesa y servidores.

Cambios en la refrigeración y el almacenamiento de energía.

Para los nuevos servidores de IA equipados con Blackwell Ultra, se espera aumentar la cantidad de desconexiones rápidas universales (UQD) para refrigeración por agua, lo que hace que el sistema sea más modular. En los nuevos racks también se creará espacio para unidades de respaldo de batería (BBU) y supercondensadores para utilizar esta energía para amortiguar las interrupciones.

Se espera que la red se duplique a 1,6 Tbps

Además, Nvidia planea duplicar la próxima velocidad de la red a 1,6 Tbps. El Economic Daily pone en juego una actualización del antiguo adaptador ConnectX-7 InfiniBand al ConnectX-8. Según la hoja de ruta de Computex de junio, sólo se habían previsto 1,6 Tbit/s para la plataforma Rubin y su ConnectX-9, previsto para el próximo año. ConnectX-8 también se utiliza ya en las soluciones actuales de Blackwell y proporciona un ancho de banda de 800 Gbps.