Início Tecnologia Os sistemas de IA refrigerados a líquido expõem os limites da arquitetura...

Os sistemas de IA refrigerados a líquido expõem os limites da arquitetura de armazenamento tradicional

25
0

Apresentado por Solidigm


A refrigeração líquida está reescrevendo as regras da infraestrutura de IA, mas a maioria das implantações ainda não ultrapassou totalmente os limites. GPUs e CPUs migraram para refrigeração líquida, enquanto o armazenamento dependeu do fluxo de ar, criando uma arquitetura híbrida operacionalmente ineficiente.

O que parece ser uma estratégia de transição pragmática é, na prática, um passivo estrutural.

“Uma abordagem de resfriamento híbrido é uma situação operacionalmente ineficiente”, explica Hardeep Singh, gerente da equipe de hardware termomecânico da Solidigm. “Você está pagando e mantendo duas infraestruturas de resfriamento caras e totalmente separadas e pode estar exposto aos piores problemas do mundo.”

Embora o resfriamento líquido exija bombas, coletores de fluido e unidades de distribuição de refrigerante (CDUs), os componentes resfriados a ar exigem unidades CRAC, corredores frios e torres de resfriamento evaporativo. As organizações que migram para uma solução híbrida apenas adicionando um pouco de refrigeração líquida estão absorvendo o custo adicional sem capturar todos os benefícios do TCO.

A física térmica piora as coisas. Placas frias volumosas de resfriamento líquido, mangueiras grossas e coletores obstruem fisicamente o fluxo de ar dentro do chassi do servidor GPU. Isso concentra o estresse térmico nos componentes refrigerados a ar restantes, incluindo unidades de armazenamento, memória e placas de rede, porque os ventiladores do servidor não conseguem empurrar o fluxo de ar adequado ao redor do encanamento de líquido. Os componentes mais dependentes de ventiladores acabam no pior ambiente térmico possível.

O consumo de água é um problema praticamente ignorado e igualmente sério. Os componentes tradicionais refrigerados a ar dependem de ventiladores de servidor para mover o calor para o ar ambiente, que é então absorvido por um circuito de água e bombeado para torres de resfriamento evaporativo. Esses sistemas podem consumir milhões de litros de água ao longo do tempo. À medida que as densidades de potência dos racks continuam a aumentar para suportar as cargas de trabalho modernas de IA, a penalidade pela evaporação da água torna-se, como diz Singh, “ambientalmente e economicamente indefensável”.

À medida que a infraestrutura de IA evolui para sistemas de GPU com refrigeração líquida e sem ventilador, as verdadeiras restrições de escala estão mudando do desempenho da computação para o design térmico no nível do sistema. As plataformas modernas de IA não são mais construídas servidor por servidor; eles são projetados como sistemas totalmente integrados em nível de rack e pod, onde o fornecimento de energia, a distribuição de resfriamento e o posicionamento dos componentes são inseparáveis.

Neste ambiente, as arquiteturas de armazenamento projetadas para data centers dependentes de fluxo de ar estão se tornando um fator limitante. À medida que as plataformas GPU se movem totalmente para domínios de refrigeração líquida partilhados, ancorados por CDUs ao nível do rack, cada componente do sistema deve operar nativamente dentro do mesmo design térmico e mecânico. O armazenamento não pode mais depender de caminhos de resfriamento isolados ou de suposições térmicas personalizadas sem introduzir compensações de ineficiência, complexidade ou densidade no nível do sistema.

Por que o armazenamento não é mais um subsistema passivo

Para os líderes de infraestruturas, isto marca uma transição fundamental. O armazenamento não é mais um subsistema passivo conectado à computação, mas sim um participante ativo no resfriamento, na capacidade de manutenção e na utilização da GPU no nível do sistema. A capacidade de dimensionar a IA agora depende de o armazenamento poder ser integrado de forma limpa em sistemas de GPU com refrigeração líquida, sem fragmentar as arquiteturas de refrigeração ou restringir o design em nível de rack.

E a corrida para escalar a IA não se trata mais apenas de quem tem mais GPUs, mas sim de quem consegue mantê-las frias, diz Scott Shadley, diretor de narrativa de liderança e evangelista da Solidigm.

“Encontrar uma maneira de permitir o armazenamento refrigerado a líquido e ao mesmo tempo torná-lo utilizável pelo usuário tem sido um dos maiores desafios no projeto de soluções de sistemas sem ventilador”, diz Shadley. “À medida que as cargas de trabalho de IA evoluem, a pressão sobre o armazenamento só se intensificará.”

Técnicas como descarregamento de cache KV, que movem dados entre a memória da GPU e o armazenamento de alta velocidade durante a inferência, tornam a latência de armazenamento e o desempenho térmico diretamente relevantes para a eficiência do serviço do modelo. Nessas arquiteturas, um subsistema de armazenamento que acelera devido ao fraco fluxo de ar tradicional sob carga térmica retarda as leituras e o próprio modelo.

Mudando para refrigeração líquida integrada

Mudar de servidores GPU tradicionais refrigerados a ar para racks integrados refrigerados a líquido melhora a eficiência do uso de energia (PUE) e reduz o custo operacional do datacenter. Ele também substitui o ruidoso manipulador de ar da sala de computadores (CRAH) e introduz uma CDU líquida moderna e eficiente, com escopo potencial para eliminar resfriadores se os racks puderem ser resfriados a uma temperatura líquida de 45° Celsius.

Quando o armazenamento é resfriado através de líquido na ausência de ventiladores, ele também deve suportar a manutenção sem vazamento de líquido. Isso também cria um novo requisito que muitas equipes de infraestrutura estão apenas começando a enfrentar: cada componente do rack deve operar nativamente dentro da mesma arquitetura de refrigeração.

Armazenamento como participante ativo no design do sistema

O projeto de armazenamento não é mais um problema isolado de engenharia. É uma variável direta na utilização da GPU, confiabilidade do sistema e eficiência operacional. A solução é redesenhar o armazenamento desde o início para ambientes com refrigeração líquida e sem ventilador. Isso é mais difícil do que parece. O design tradicional do SSD pressupõe fluxo de ar para gerenciamento térmico e coloca componentes em ambos os lados de uma PCB isolada termicamente. Nenhuma das suposições é válida em uma arquitetura ancorada em CDU.

“Os SSDs precisam ser projetados com a melhor solução térmica da categoria para conduzir especificamente o calor dos componentes internos de forma eficiente e transferi-lo para o fluido”, diz Singh. “O projeto deve incluir um caminho de baixa resistência para a transferência de calor para uma única placa fria fixada em um lado.”

Ao mesmo tempo, os inversores devem suportar manutenção sem vazamento de líquido durante a inserção e remoção e sem degradar a interface térmica entre o inversor e a placa fria.

Solidigm trabalhou com NVIDIA para enfrentar os desafios de resfriamento líquido SSD, como capacidade de troca a quente e resfriamento unilateral, reduzindo a pegada térmica do armazenamento dentro do loop líquido compartilhado e garantindo que as GPUs recebam sua parcela proporcional de refrigerante.

“Se o armazenamento não for projetado de forma eficiente para um ambiente refrigerado a líquido, ele diminuirá o desempenho ou exigirá mais volume de líquido”, diz ele. “O que direta e indiretamente leva à subutilização da capacidade da GPU.”

Alinhamento com padrões e caminho para a interoperabilidade

A Solidigm não está trabalhando nisso isoladamente. A indústria em geral está a unir-se em torno de normas para garantir que os sistemas de IA refrigerados a líquido sejam interoperáveis, em vez de uma colcha de retalhos de soluções personalizadas. O SNIA e o Open Compute Project (OCP) são os principais órgãos que conduzem este trabalho.

A Solidigm liderou o padrão da indústria para refrigeração líquida em SFF-TA-1006 para o formato E1.S e é um participante ativo nos fluxos de trabalho OCP que abrangem design de rack, gerenciamento térmico e sustentabilidade. Soluções de resfriamento personalizadas e sob medida para armazenamento estão dando lugar a designs alinhados aos padrões e prontos para produção que se integram perfeitamente às plataformas de GPU com refrigeração líquida.

“Existem várias organizações envolvidas neste trabalho”, diz Shadley, que também é membro do conselho da SNIA. “Eles começaram com soluções em nível de componente, fortemente impulsionadas pela SNIA e pelo SFF TA TWG. O próximo nível é o trabalho em nível de solução, que atualmente está sendo fortemente impulsionado pelo OCP.”

O roteiro da Solidigm está liderando o caminho

As regras de projeto para arquiteturas em nível de sistema mudaram devido ao advento das tecnologias de resfriamento líquido e de imersão que permitem regras de projeto mais exclusivas e a remoção de algumas barreiras. A capacidade dos sistemas de operar plataformas somente SSD NVMe também permite a remoção da restrição de caixa baseada em prato que existe nas soluções de HDD, diz Shadley.

“Os clientes da Solidigm têm um papel ativo e de liderança nas decisões de roteiro para nossos produtos devido ao seu profundo alinhamento técnico com o ecossistema”, afirma ele. “Não apenas fabricamos e vendemos produtos, nós integramos, co-projetamos, co-desenvolvemos e inovamos com e ao lado de nossos parceiros, clientes e seus clientes.”

Singh acrescenta: “O principal ponto forte da Solidigm é a inovação e a engenharia de nível de sistema inspirada no cliente. Isso continuará a liderar agressivamente o caminho para a adoção de refrigeração líquida para armazenamento.”


Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui