Quando um agente de IA perde contexto no meio da tarefa porque o armazenamento tradicional não consegue acompanhar a inferência, não é um problema de modelo – é um problema de armazenamento. No GTC 2026, a Nvidia anunciou BlueField-4 STX, uma arquitetura de referência modular que insere uma camada de memória de contexto dedicada entre GPUs e armazenamento tradicional, reivindicando 5x a taxa de transferência de token, 4x a eficiência energética e 2x a velocidade de ingestão de dados do armazenamento convencional baseado em CPU.
O gargalo dos alvos STX são os dados de cache de valor-chave. O cache KV é o registro armazenado do que um modelo já processou – os cálculos intermediários que um LLM salva para que não precise recalcular a atenção em todo o contexto em cada etapa de inferência. É o que permite que um agente mantenha uma memória de trabalho coerente entre sessões, chamadas de ferramentas e etapas de raciocínio. À medida que as janelas de contexto crescem e os agentes realizam mais etapas, esse cache cresce com eles. Quando é necessário percorrer um caminho de armazenamento tradicional para voltar à GPU, a inferência fica mais lenta e a utilização da GPU cai.
STX não é um produto que a Nvidia vende diretamente. É uma arquitetura de referência que a empresa está distribuindo ao seu ecossistema de parceiros de armazenamento para que os fornecedores possam construir uma infraestrutura nativa de IA em torno dela.
STX coloca uma camada de memória de contexto entre GPU e disco
A arquitetura é construída em torno de um novo processador BlueField-4 otimizado para armazenamento que combina a CPU Vera da Nvidia com o ConnectX-9 SuperNIC. Ele roda em rede Ethernet Spectrum-X e é programável através da plataforma de software DOCA da Nvidia.
A primeira implementação em escala de rack é a plataforma de armazenamento de memória de contexto Nvidia CMX. O CMX estende a memória da GPU com uma camada de contexto de alto desempenho projetada especificamente para armazenar e recuperar dados de cache KV gerados por grandes modelos de linguagem durante a inferência. Manter esse cache acessível sem forçar uma viagem de ida e volta através do armazenamento de uso geral é o que o CMX foi projetado para fazer.
“Os data centers tradicionais fornecem armazenamento de uso geral de alta capacidade, mas geralmente não possuem a capacidade de resposta necessária para a interação com agentes de IA que precisam trabalhar em muitas etapas, ferramentas e sessões diferentes”, disse Ian Buck, vice-presidente de hiperescala e computação de alto desempenho da Nvidia, em um briefing com a imprensa e analistas.
Em resposta a uma pergunta da VentureBeat, Buck confirmou que o STX também vem com uma plataforma de referência de software junto com a arquitetura de hardware. A Nvidia está expandindo o DOCA para incluir um novo componente referido no briefing como DOCA Memo.
“Nossos provedores de armazenamento podem aproveitar a programabilidade do processador BlueField-4 para otimizar o armazenamento para a fábrica de IA agente”, disse Buck. “Além de termos uma arquitetura de rack de referência, também estamos fornecendo uma plataforma de software de referência para que eles possam oferecer essas inovações e otimizações aos seus clientes”.
Os parceiros de armazenamento baseados no STX obtêm um design de referência de hardware e uma plataforma de referência de software — uma base programável para armazenamento otimizado para contexto.
A lista de parceiros da Nvidia abrange fornecedores de armazenamento e provedores de nuvem nativos de IA
Os provedores de armazenamento que co-projetam a infraestrutura baseada em STX incluem Cloudian, DDN, Dell Technologies, Everpure, Hitachi Vantara, HPE, IBM, MinIO, NetApp, Nutanix, VAST Data e WEKA. Os parceiros de fabricação que constroem sistemas baseados em STX incluem AIC, Supermicro e Quanta Cloud Technology.
No lado da nuvem e da IA, CoreWeave, Crusoe, IREN, Lambda, Mistral AI, Nebius, Oracle Cloud Infrastructure e Vultr se comprometeram com STX para armazenamento de memória de contexto.
Essa combinação de operadores históricos de armazenamento empresarial e provedores de nuvem nativos de IA é o sinal que vale a pena observar. A Nvidia não está posicionando o STX como um produto especializado para hiperscaladores. Ele está posicionando-o como o padrão de referência para qualquer pessoa que construa infraestrutura de armazenamento que tenha que atender cargas de trabalho de IA de agente – o que, nos próximos dois a três anos, provavelmente incluirá a maioria das implantações empresariais de IA executando inferência em várias etapas em escala.
As plataformas baseadas em STX estarão disponíveis nos parceiros no segundo semestre de 2026.
IBM mostra como é o problema da camada de dados na produção
A IBM está em ambos os lados do anúncio da STX. Ela está listada como um provedor de armazenamento que co-projeta infraestrutura baseada em STX, e a Nvidia confirmou separadamente que selecionou o IBM Storage Scale System 6000 – certificado e validado em plataformas Nvidia DGX – como a base de armazenamento de alto desempenho para sua própria infraestrutura analítica nativa de GPU.
A IBM também anunciou uma colaboração mais ampla e expandida com a Nvidia no GTC, incluindo integração acelerada por GPU entre o mecanismo watsonx.data Presto SQL da IBM e a biblioteca cuDF da Nvidia. Uma prova de conceito de produção com a Nestlé apresentou números sobre como é essa aceleração: um ciclo de atualização de dados em todo o data mart Order-to-Cash da empresa, cobrindo 186 países e 44 mesas, caiu de 15 minutos para três minutos. A IBM relatou economia de custos de 83% e uma melhoria de preço-desempenho de 30x.
O resultado da Nestlé é uma carga de trabalho de análise estruturada. Não demonstra diretamente o desempenho da inferência agente. Mas torna concreto o argumento compartilhado da IBM e da Nvidia: a camada de dados é onde o desempenho da IA empresarial está atualmente limitado, e a aceleração da GPU produz resultados materiais na produção.
Por que a camada de armazenamento está se tornando uma decisão de infraestrutura de primeira classe
STX é um sinal de que a camada de armazenamento está se tornando uma preocupação de primeira classe no planejamento de infraestrutura de IA empresarial, e não uma reflexão tardia na aquisição de GPU. NAS de uso geral e armazenamento de objetos não foram projetados para servir dados de cache KV com requisitos de latência de inferência. Sistemas baseados em STX de parceiros como Dell, HPE, NetApp e VAST Data são o que a Nvidia apresenta como alternativa prática, com a plataforma de software DOCA fornecendo a camada de programabilidade para ajustar o comportamento de armazenamento para cargas de trabalho de agente específicas.
As reivindicações de desempenho – 5x a taxa de transferência de token, 4x a eficiência energética, 2x a ingestão de dados – são medidas em relação às arquiteturas de armazenamento tradicionais baseadas em CPU. A Nvidia não especificou a configuração básica exata para essas comparações. Antes que esses números conduzam as decisões de infraestrutura, vale a pena definir a linha de base.
As plataformas são esperadas dos parceiros no segundo semestre de 2026. Dado que a maioria dos principais fornecedores de armazenamento já estão co-projetando em STX, as empresas que avaliam atualizações de armazenamento para infraestrutura de IA nos próximos 12 meses devem esperar que opções baseadas em STX estejam disponíveis em seus relacionamentos existentes com fornecedores.













