Início Tecnologia A equipe por trás do lote contínuo diz que suas GPUs ociosas...

A equipe por trás do lote contínuo diz que suas GPUs ociosas deveriam estar executando inferência, e não no escuro

23
0

Cada cluster de GPU tem tempo morto. Os trabalhos de treinamento terminam, as cargas de trabalho mudam e o hardware fica escuro enquanto os custos de energia e resfriamento continuam aumentando. Para os operadores de neocloud, esses ciclos vazios representam margem perdida.

A solução óbvia são os mercados spot de GPU – alugando capacidade ociosa para quem precisar. Mas instâncias pontuais significam que o fornecedor da nuvem ainda é quem aluga, e os engenheiros que compram essa capacidade ainda estão pagando pela computação bruta, sem nenhuma pilha de inferência anexada.

A resposta da FriendliAI é diferente: execute a inferência diretamente no hardware não utilizado, otimize o rendimento do token e divida a receita com a operadora. A FriendliAI foi fundada por Byung-Gon Chun, o pesquisador cujo artigo sobre lotes contínuos se tornou fundamental para o vLLM, o mecanismo de inferência de código aberto usado na maioria das implantações de produção atualmente.

Chun passou mais de uma década como professor na Universidade Nacional de Seul estudando a execução eficiente de modelos de aprendizado de máquina em escala. Essa pesquisa produziu um artigo chamado orcaque introduziu lotes contínuos. A técnica processa solicitações de inferência dinamicamente, em vez de esperar para preencher um lote fixo antes de executar. Agora é o padrão da indústria e é o mecanismo central do vLLM.

Esta semana, FriendliAI está lançando uma nova plataforma chamada InferenceSense. Assim como os editores usam o Google AdSense para monetizar o inventário de anúncios não vendidos, os operadores de neocloud podem usar o InferenceSense para preencher ciclos de GPU não utilizados com cargas de trabalho pagas de inferência de IA e coletar uma parte da receita do token. Os trabalhos do próprio operador sempre têm prioridade – no momento em que um agendador recupera uma GPU, o InferenceSense cede.

“O que estamos fornecendo é que, em vez de deixar as GPUs ociosas, ao executar inferências, eles podem monetizar essas GPUs ociosas”, disse Chun ao VentureBeat.

Como um laboratório da Universidade Nacional de Seul construiu o mecanismo dentro do vLLM

Chun fundou a FriendliAI em 2021, antes que a maior parte da indústria mudasse a atenção do treinamento para a inferência. O principal produto da empresa é um serviço de endpoint de inferência dedicado para startups e empresas de IA que executam modelos abertos. FriendliAI também aparece como uma opção de implantação no Hugging Face junto com Azure, AWS e GCP, e atualmente oferece suporte a mais de 500.000 modelos de peso aberto da plataforma.

O InferenceSense agora estende esse mecanismo de inferência ao problema de capacidade que os operadores de GPU enfrentam entre cargas de trabalho.

Como funciona

O InferenceSense é executado no Kubernetes, que a maioria dos operadores de neocloud já usa para orquestração de recursos. Um operador aloca um pool de GPUs para um cluster Kubernetes gerenciado pela FriendliAI – declarando quais nós estão disponíveis e sob quais condições eles podem ser recuperados. A detecção de inatividade é executada pelo próprio Kubernetes.

“Temos nosso próprio orquestrador que roda nas GPUs desses fornecedores de neocloud – ou apenas de nuvem”, disse Chun. “Definitivamente aproveitamos o Kubernetes, mas o software executado nele é uma pilha de inferência altamente otimizada.”

Quando as GPUs não são utilizadas, o InferenceSense ativa contêineres isolados que atendem cargas de trabalho de inferência pagas em modelos abertos, incluindo DeepSeek, Qwen, Kimi, GLM e MiniMax. Quando o agendador do operador precisa de hardware de volta, as cargas de trabalho de inferência são interrompidas e as GPUs são retornadas. FriendliAI diz que a transferência acontece em segundos.

A demanda é agregada por meio de clientes diretos da FriendliAI e por meio de agregadores de inferência como o OpenRouter. O operador fornece a capacidade; FriendliAI cuida do pipeline de demanda, otimização do modelo e pilha de serviços. Não há taxas iniciais nem compromissos mínimos. Um painel em tempo real mostra aos operadores quais modelos estão em execução, tokens sendo processados ​​e receitas acumuladas.

Por que a taxa de transferência de tokens supera o aluguel de capacidade bruta

Os mercados spot de GPU de fornecedores como CoreWeave, Lambda Labs e RunPod envolvem o fornecedor de nuvem alugando seu próprio hardware a terceiros. O InferenceSense é executado em hardware que o operador da neocloud já possui, com o operador definindo quais nós participam e estabelecendo acordos de agendamento com FriendliAI antecipadamente. A distinção é importante: os mercados spot monetizam a capacidade, o InferenceSense monetiza os tokens.

A taxa de transferência de token por hora de GPU determina quanto o InferenceSense pode realmente ganhar durante janelas não utilizadas. A FriendliAI afirma que seu mecanismo oferece duas a três vezes o rendimento de uma implantação vLLM padrão, embora Chun observe que o número varia de acordo com o tipo de carga de trabalho. A maioria das pilhas de inferência concorrentes são construídas em estruturas de código aberto baseadas em Python. O mecanismo do FriendliAI é escrito em C++ e usa kernels de GPU personalizados em vez da biblioteca cuDNN da Nvidia. A empresa construiu sua própria camada de representação de modelo para particionar e executar modelos em hardware, com suas próprias implementações de decodificação especulativa, quantização e gerenciamento de cache KV.

Como o mecanismo do FriendliAI processa mais tokens por hora de GPU do que uma pilha vLLM padrão, as operadoras devem gerar mais receita por ciclo não utilizado do que poderiam criar seu próprio serviço de inferência.

O que os engenheiros de IA que avaliam os custos de inferência devem observar

Para os engenheiros de IA que avaliam onde executar cargas de trabalho de inferência, a decisão entre neocloud versus hiperescala normalmente se resume a preço e disponibilidade.

O InferenceSense acrescenta uma nova consideração: se as neoclouds puderem monetizar a capacidade ociosa por meio de inferência, elas terão mais incentivo econômico para manter os preços dos tokens competitivos.

Isso não é motivo para mudar as decisões de infraestrutura hoje – ainda é cedo. Mas os engenheiros que rastreiam o custo total de inferência devem observar se a adoção da neocloud de plataformas como o InferenceSense coloca pressão para baixo nos preços de API para modelos como DeepSeek e Qwen nos próximos 12 meses. “Quando tivermos fornecedores mais eficientes, o custo global diminuirá”, disse Chun. “Com o InferenceSense podemos contribuir para tornar esses modelos mais baratos.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui