Início Tecnologia O que os benchmarks de IA perdem no desempenho no mundo real

Tecnologia

O que os benchmarks de IA perdem no desempenho no mundo real

Por

11 Junho 2026

Apresentado por F5

As equipes de IA corporativa passaram anos resolvendo problemas de computação, garantindo alocações de GPU, negociando capacidade de nuvem e comparando o rendimento do treinamento. A suposição incorporada nesse trabalho é que o caminho entre o armazenamento e a computação se manterá atualizado. Na produção, essa suposição cada vez mais não se sustenta. O tráfego real introduz picos de latência, instabilidade de rede e degradação de nós que os benchmarks controlados não conseguem capturar, resultando em pipelines que funcionam bem no laboratório, mas param na implantação. Uma resposta crescente é Entrega de dados de IAimplantando um controlador de entrega de aplicativos (ADC) ou uma plataforma de entrega e segurança de aplicativos (ADSP) na frente do armazenamento como um ponto de controle resiliente e seguro.

“O provisionamento resolve a capacidade, mas não a entrega, e é aí que a restrição agora se esconde”, diz Hunter Smit, gerente sênior de marketing de produto da F5. “As empresas compram GPUs e armazenamento suficientes e, em seguida, presumem que o caminho entre eles se manterá atualizado, mas o tráfego de IA é intermitente, altamente simultâneo e aleatório em suas leituras, de uma forma que a rede de armazenamento comum nunca foi construída para absorver.”

Os benchmarks da lacuna de produção não mostram

A metodologia de benchmark padrão agrava o problema, diz Paul Pindell, principal arquiteto de soluções para alianças tecnológicas da F5.

“Os testes de benchmark geralmente são criados para produzir o melhor desempenho ou resultado de segurança possível, e não o mais realista”, diz ele. “Com o S3, a latência é um fator conhecido na degradação do desempenho, portanto, testes significativos precisam introduzir latência consistente no caminho.”

A maioria dos ambientes de benchmark nunca faz isso, o que significa que os números de desempenho nos quais as empresas dependem para decisões de infraestrutura são extraídos de condições que os sistemas de produção nunca irão replicar. Para testar essa suposição, F5 e MinIO realizaram testes de rendimento sob condições de rede degradadas.

“O que se destacou foi a rapidez com que a taxa de transferência do S3 cai quando você introduz a latência”, diz Pindell. “Mesmo uma latência modesta prejudica bastante e, à medida que a latência aumenta em distâncias de longa distância, a degradação se torna severa.”

Os testes também mostraram que a latência era muito mais importante do que o jitter como fator de perda de rendimento, o que inverteu o que a equipe esperava. O resultado para os arquitetos corporativos é que as implantações de armazenamento de objetos S3 não podem ser projetadas com base em suposições de sala limpa; eles precisam ser projetados para as condições de rede degradadas que realmente enfrentarão.

O custo dos caminhos de dados frágeis

“Na infraestrutura de IA, as pessoas naturalmente se concentram nas GPUs porque são o recurso mais visível e caro”, diz Tanu Mutreja, diretor sênior de gerenciamento de produtos da F5. “Mas em ambientes de produção, as GPUs geram tanto valor quanto o caminho de dados que as alimenta.”

Esse caminho passa por camadas de armazenamento, rede, bancos de dados, segurança e orquestração, muitas vezes unidas por vários fornecedores. Os clientes não experimentam nenhuma dessas dificuldades; eles experimentam a saída de todo o sistema.

Quando o caminho de dados se degrada, os efeitos aumentam. A subutilização da GPU é o sintoma mais imediato e visível, mas Mutreja apontou para um conjunto mais amplo de consequências: desempenho de inferência degradado, resultados de IA de baixa qualidade, custos de saída mais elevados devido à replicação desnecessária de dados e crescente complexidade operacional.

“Em escala, a eficiência do caminho de dados torna-se uma alavanca estratégica de negócios, em vez de otimização técnica”, diz ela. “Quando o caminho dos dados é bem projetado, as GPUs permanecem produtivas, os aplicativos de IA permanecem responsivos e confiáveis, as operações são dimensionadas com eficiência e as organizações maximizam o retorno de seus investimentos em IA.”

As cargas de trabalho de IA estão estruturalmente mais expostas a essas falhas do que as aplicações empresariais tradicionais. Bancos de dados, sistemas ERP e serviços web absorvem atrasos transitórios de armazenamento por meio de cache e buffer. Cargas de trabalho de IA executadas em clusters de GPU massivamente paralelos não têm proteção equivalente. Como observou Mutreja, mesmo pequenos picos de latência ou gargalos de largura de banda podem se espalhar por grandes clusters de GPU, afetando simultaneamente a utilização, a eficiência do treinamento e a experiência do cliente.

Tratar a borda do armazenamento como um ponto de controle

Durante décadas, o armazenamento e a inteligência funcionaram como preocupações sequenciais na arquitetura empresarial: os dados eram armazenados primeiro e depois analisados posteriormente. Mutreja argumentou que este modelo já não se adapta às exigências da IA.

“A vantagem competitiva é determinada não apenas pelo volume de dados, mas também pela relevância, linhagem, segurança e entrega de dados de desempenho”, diz ela. “Em toda a indústria, desde NVIDIA e AWS até provedores de armazenamento corporativo, o movimento é no sentido de incorporar inteligência diretamente na infraestrutura de dados, em vez de empilhá-la no topo.”

A integração da F5 com o MinIO instancia essa abordagem na camada onde o armazenamento e a computação realmente interagem. Como parte do F5 ADSP, o BIG-IP fica no caminho dos dados, monitorando continuamente a integridade dos nós de armazenamento distribuído do MinIO e direcionando as solicitações apenas para aqueles que permanecem disponíveis.

O impacto operacional dessa capacidade fica claro quando os nós se degradam, o que é esperado em clusters de armazenamento distribuído. Sem roteamento inteligente, os clientes que chegam a um nó não íntegro devem tentar novamente e podem chegar a outro nó degradado, prejudicando o desempenho geral.

“A F5 garante que o tráfego vá apenas para nós íntegros, ou mesmo para os menos ocupados, para que o tráfego do cliente S3 seja sempre processado da maneira mais eficiente”, diz Pindell.

Governança em ambientes distribuídos

O desafio cresce em escala, quando os pipelines de IA se estendem por vários locais, nuvens ou ambientes de borda.

“Depois que um pipeline de IA atravessa regiões e nuvens, a questão deixa de ser sobre desempenho e passa a ser sobre controle”, diz Smit. “Você está operando sob regras diferentes em cada jurisdição, e a soberania digital é agora uma restrição de design. Onde seus dados podem residir, quem tem permissão para tocá-los e quais fronteiras eles não podem cruzar agora moldam a arquitetura antes que alguém fale sobre velocidade.”

Essa pressão está a impulsionar uma tendência visível de as empresas repatriarem cargas de trabalho de IA da nuvem pública para infraestruturas que possuem e governam diretamente. A arquitetura descrita por Smit resolve isso desacoplando aplicativos de qualquer local de armazenamento único e colocando um ponto de controle unificado entre eles que impõe políticas consistentes em todos eles.

“Soberania, resiliência e custos deixam de ser compensações quando você gerencia uma região de cada vez”, explica ele. “Eles se tornam um recurso que você executa como um sistema.”

Caminho do armazenamento para computação como um ponto de controle gerenciado

Para resolver esses problemas, as equipes empresariais precisam parar de tratar o caminho do armazenamento para a computação como uma conexão direta e começar a tratá-lo como um ponto de controle gerenciado, diz Smit. A validação independente do F5 BIG-IP pelo SecureIQLab em implantações de armazenamento confirmou que a abordagem oferece resiliência sem abrir mão do rendimento.

“Insira um ADC proxy completo entre os dois e o caminho se tornará observável, programável e ciente de falhas, com roteamento baseado em integridade, qualidade de serviço e segurança aplicada em linha”, explica ele. “Esse único movimento converte a entrega de dados de uma suposição em uma disciplina de engenharia, que é o que mantém as GPUs alimentadas quando as condições pioram.”

Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.

fonte

O que os benchmarks de IA perdem no desempenho no mundo real

Os benchmarks da lacuna de produção não mostram

O custo dos caminhos de dados frágeis

Tratar a borda do armazenamento como um ponto de controle

Governança em ambientes distribuídos

Caminho do armazenamento para computação como um ponto de controle gerenciado

DEIXE UMA RESPOSTA Cancelar resposta

Recente

Prêmio em dinheiro da Copa do Mundo de 2026 rodada por...

Chase Infiniti sobre como esconder o papel de ‘Uma batalha após...

O aplicativo Edits da Meta está recebendo um assistente de IA...

ESCUTE: David Harbour encontra um porto na tempestade em ‘DTF St....

Quanto recebem os árbitros da Copa do Mundo: Mark Clattenburg revela...

A Best Buy acaba de reduzir o preço de uma das...

Equipe de ‘All Her Fault’ de Andrea Mara, Megan Gallagher e...

Apple WWDC: O que os fãs de tecnologia acertaram (e erraram)...

‘The Love Hypothesis’ define data de transmissão em setembro no vídeo...

Seahawks recebem previsão de contrato de US $ 25,2 milhões de...