Nvidia Kyber: um superpod DGX comprime apenas um rack

Nvidia Kyber: Um Superpod DGX apenas comprime um rack 6 comentários

Nvidia Kyber: um superpod DGX comprime apenas um rack

Com o superpod Blackwell Ultra DGX, a Nvidia apresentou um “supercomputador de IA pronto para uso” com o supercomputador Blackwell Ultra DGX, que fornece poder de computação para projetos de IA com 576 GPUs em 11 EXAFLOPS (FP4). No entanto, o que ainda está espalhado por quatro racks poderá em breve caber em um, como mostra o rack Kyber da Nvidia.

Dimensionamento direcionado ao topo

O dimensionamento tinha que ser feito antes do dimensionamento, explicou o CEO da Nvidia, Jensen Huang, ao público ontem. O que ouvimos é uma compressão dos componentes antes da sua largura. A Nvidia está liderando este próximo projeto com racks compactados regularmente e atingindo o pico preliminar com o rack Kyber no GTC 2025.

O rack Kyber foi apenas indiretamente um problema para a palestra, era preciso prestar muita atenção às notas de rodapé para encontrar o nome de desenvolvimento do rack “Kyber” além da imagem do Rubin Ultra NVL576 planejada para o segundo semestre de 2027. Em vez disso, o olhar rapidamente caiu sobre os números gigantescos ao redor do Rubin Ultra com uma enorme GPU de 4 remoções.

Kyber faz tudo diferente

A visão frontal do Kyber mostrada na palestra sugeria que a Nvidia não apenas embalava os componentes aqui, mas também ficaria completamente diferente no rack. Análogo ao roteiro declarado até 2028, a Nvidia estava surpreendentemente aberta às próximas gerações de servidores em sua própria feira GTC e já havia exibido o Kyber e os novos componentes necessários para esta atividade apenas como prova de conceito. Mas tendo em conta o facto de Jensen Huang ter mostrado o Rubin Ultra NVL576 neste chassis até à capa, pode-se presumir.

rack kyber

Kyber Rack Imagem 1 de 8

576 GPUs em um único rack

Rubin Ultra NVL576, entre outros, traz 144 pacotes de chips emparelhados com um total de 576 GPUs por meio de múltiplos switches NVLink em um único rack. Segundo Huang, o rack requer energia de 600 kW. Para comparação: com GB200 NVL72 (e GB300 NVL144), 132 kW e por rack 144 GPUs (novo método de contagem para GB300) são divididos em 72 pacotes de chips, 36 CPUS GRACE e nove switches NVLink.

Kyber pode funcionar sem um cabo de cobre nvlink

A Nvidia está, portanto, buscando um rack GPU Compression Pro por um fator de 4x com Rubin Ultra em comparação com Rubin, Blackwell Ultra e Blackwell. Para fazer isso, a estrutura do rack deve ser completamente reformada, como Kyber demonstra de forma impressionante. Com GB300 NVL144 e Vera Rubin NVL144, a NVIDIA instala as 18 bandejas de computação com 8 GPUs e 2 CPUs em cada uma das gavetas do rack, os nove switches NVLink ficam um em cima do outro entre as dez primeiras e as oito bandejas de computação restantes. A “espinha dorsal” do sistema são 3,2 quilômetros de cabos de cobre na parte traseira do rack, que conectam as bandejas de computação aos switches NVLink para criar “uma grande GPU”.

GB300 NVL72 por trás com cabos de cobre para switches NVLink

GB300 NVL72 por trás com cabos de cobre para switches NVLink Imagem 1 de 3

Kyber não apenas constrói poetas, mas também dispensa esses cabos. Em vez de pratos, a Nvidia conta com blades para os switches computacionais e nvlink, que são girados 90 graus como livros em uma prateleira. Kyber pode absorver quatro blocos de 18 blades de computação para um total de 72 blades de computação. Na Kyber, cada blade de computação tem apenas cerca de metade da profundidade de construção em comparação com os pratos Blackwell, à medida que a NVIDIA passa de uma estrutura líquida híbrida para uma estrutura única refrigerada a fluido que não requer mais um dissipador de calor e ventilador convencionais. Desta vez, o resfriamento fluido realmente inclui todos os componentes, ou seja, não apenas GPUs e CPUs, mas também armazenamento, DPU, rede e muito mais, para que os ventiladores não precisem mais explodir as placas.

Midplane PCB como uma nova peça de midplane

Mas onde os switches NVLink são necessários no Kyber? Isso inclui a segunda metade da profundidade de construção de racks compatíveis com padrões em termos de dimensões diretamente atrás dos blades de computação. Entre os dois fica perpendicular às lâminas, que são realizadas na frente e atrás, uma nova PCB intermediária com pontos de contato em ambos os lados para registrar as lâminas de computação na frente e atrás das lâminas de comutação NVLink com as peças de conexão correspondentes. Nesta área do rack, o resfriamento líquido, cada um com ambas as conexões de cada switch computacional e nvlink, também funciona. No resultado final, em relação ao número de GPUs, é criado um rack com 144 pacotes de chips para um total de 576 GPUs, pois Rubin Ultra quatro em vez de duas GPUs formam um pacote de chips.

Blocos de construção em Kyber Rack

Blocos de construção no Kyber Rack Imagem 1 de 3

Superpod Blackwell Ultra DGX

Este ano, porém, os clientes da Nvidia ainda precisam “estar felizes” com o superpod Blackwell Ultra DGX anunciado na GTC, que também oferece 576 GPUs, mas ainda as distribui em quatro racks com refrigeração híbrida. O novo superpod é comercializado pela Nvidia como um “supercomputador AI na caixa”, que com 576 Blackwell-Ultra-GPUS e 288 CPUs Grace atinge um poder de computação de 11,5 exaflops para FP4. Espera-se que o superpod Blackwell Ultra DGX seja oferecido pelos parceiros da Nvidia ainda este ano.

Superpod Nvidia Blackwell Ultra Dgx Superpod Ultra Dgx (Imagem: Nvidia)

A Techtip recebeu sobre este artigo da Nvidia como parte de um evento da em San Jose, Califórnia. Os custos de chegada, saída e cinco hospedagens em hotel foram arcados pela empresa. Não houve influência do fabricante nem obrigação de reportar.

Tópicos: nvidia nvidia gtc 2025

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Scroll to Top