Nvidia Kyber: un superpod DGX comprime solo un rack

Nvidia Kyber: un DGX Superpod simplemente comprime un rack 6 comentarios

Con el superpod Blackwell Ultra DGX, Nvidia presentó una “supercomputadora de IA lista para usar” con la supercomputadora Blackwell Ultra DGX, que proporciona potencia informática para proyectos de IA con 576 GPU en 11 EXAFLOPS (FP4). Sin embargo, lo que todavía está repartido en cuatro racks pronto podría caber en uno, como muestra el rack Kyber de Nvidia.

Resumen :

Escalamiento impulsado hacia la cima

Había que escalar antes de escalar, explicó ayer a la audiencia el director ejecutivo de Nvidia, Jensen Huang. Lo que escuchamos es una compresión de los componentes antes de su ancho. Nvidia lidera este próximo proyecto con bastidores compactados periódicamente y alcanza el pico preliminar con el bastidor Kyber en GTC 2025.

El rack Kyber solo fue un problema indirecto para la charla, había que prestar mucha atención a las notas a pie de página para encontrar el nombre de desarrollo del rack “Kyber” además de la imagen del Rubin Ultra NVL576 planeado para la segunda mitad de 2027. En cambio, la mirada se posó rápidamente en los gigantescos números alrededor del Rubin Ultra con una enorme GPU de 4 remociones.

Kyber hace todo diferente

La vista frontal de Kyber mostrada en la conferencia magistral ya sugería que Nvidia no solo empaquetaba los componentes aquí, sino que también se vería completamente diferente en el rack. De forma análoga a la hoja de ruta anunciada hasta 2028, Nvidia se mostró sorprendentemente abierta a las próximas generaciones de servidores en su propia feria GTC y ya había exhibido Kyber y los nuevos componentes necesarios para esta actividad sólo como prueba de concepto. Pero teniendo en cuenta el hecho de que Jensen Huang mostró el Rubin Ultra NVL576 en este chasis hasta la portada, se puede suponer.

Estante Kyber Imagen 1 de 8

576 GPU en un solo rack

Rubin Ultra NVL576, entre otros, trae 144 paquetes de chips emparejados con un total de 576 GPU a través de múltiples conmutadores NVLink en un solo bastidor. Según Huang, el bastidor necesita una energía de 600 kW. A modo de comparación: con GB200 NVL72 (y GB300 NVL144), 132 kW y por rack 144 GPU (nuevo método de conteo para GB300) se dividen en 72 paquetes de chips, 36 CPUS GRACE y nueve conmutadores NVLink.

Kyber puede prescindir de un cable de cobre nvlink

Por lo tanto, Nvidia se esfuerza por lograr un rack GPU Compression Pro con un factor de 4 veces con Rubin Ultra en comparación con Rubin, Blackwell Ultra y Blackwell. Para ello, es necesario renovar completamente la estructura del bastidor, como lo demuestra Kyber de manera impresionante. Con GB300 NVL144 y Vera Rubin NVL144, NVIDIA instala las 18 bandejas de computación con 8 GPU y 2 CPU en cada uno de los cajones del rack, los nueve conmutadores NVLink se encuentran uno encima del otro entre las primeras diez y las ocho bandejas de computación restantes. La “columna vertebral” del sistema son 3,2 kilómetros de cables de cobre en la parte posterior del bastidor, que conectan las bandejas de computación con los conmutadores NVLink para crear “una gran GPU”.

GB300 NVL72 por detrás con cables de cobre para conmutadores NVLink Imagen 1 de 3

Kyber no sólo construye poetas, sino que también prescinde de estos cables. En lugar de platos, Nvidia depende de blades para la computación y de conmutadores nvlink, que giran 90 grados como libros en un estante. Kyber puede absorber cuatro bloques de 18 blades de cómputo para un total de 72 blades de cómputo. En Kyber, cada blade de cómputo tiene solo aproximadamente la mitad de la profundidad de construcción en comparación con los platos Blackwell, a medida que NVIDIA pasa de una estructura líquida híbrida a una estructura única enfriada por fluido que ya no requiere un disipador de calor ni un ventilador convencionales. Esta vez, la refrigeración líquida realmente incluye todos los componentes, es decir, no solo GPU y CPU, sino también almacenamiento, DPU, redes y más, por lo que los ventiladores ya no tienen que volar las placas.

PCB del plano medio como nueva pieza del plano medio

Pero, ¿dónde se requieren los conmutadores NVLink en Kyber? Estos incluyen la segunda mitad de la profundidad de construcción de los racks que cumplen con los estándares en términos de dimensiones directamente detrás de los blades de computación. Entre ambos se encuentra, perpendicularmente a los blades conectados por delante y por detrás, una nueva PCB central con puntos de contacto a ambos lados para registrar los blades informáticos desde delante y detrás de los blades de conmutación NVLink con sus correspondientes piezas de conexión. En esta zona del rack también funciona la refrigeración líquida, cada una con ambas conexiones de cada cómputo y switch nvlink. En el resultado final, en cuanto al número de GPU, se crea un bastidor con 144 paquetes de chips para un total de 576 GPU, porque Rubin Ultra cuatro en lugar de dos GPU forman un paquete de chips.

Bloques de construcción en Kyber Rack Imagen 1 de 3

Superpod Blackwell Ultra DGX

Este año, sin embargo, los clientes de Nvidia todavía tienen que “estar contentos” con el superpod Blackwell Ultra DGX anunciado en GTC, que también ofrece 576 GPU, pero aún las distribuye en cuatro bastidores con refrigeración híbrida. Nvidia comercializa el nuevo superpod como un “superordenador AI en la caja”, que con 576 Blackwell-Ultra-GPUS y 288 CPU Grace alcanza una potencia informática de 11,5 exaflops para el FP4. Se espera que los socios de Nvidia ofrezcan el superpod Blackwell Ultra DGX a finales de este año.

Nvidia Blackwell Ultra Dgx Superpod (Imagen: Nvidia)

Techtip recibió información sobre este artículo de Nvidia como parte de un evento del fabricante en San José, California. Los gastos de llegada, salida y cinco alojamientos en hotel corrieron a cargo de la empresa. No hubo influencia del fabricante ni obligación de informar.