Início Tecnologia z.ai lança modelo GLM-5 Turbo mais rápido e barato para agentes e...

z.ai lança modelo GLM-5 Turbo mais rápido e barato para agentes e ‘garras’ – mas não é de código aberto

18
0

A startup chinesa de IA Z.ai, conhecida por sua poderosa família GLM de código aberto de grandes modelos de linguagem (LLMs), introduziu o GLM-5-Turbo, uma nova variante proprietária de seu modelo GLM-5 de código aberto voltado para fluxos de trabalho orientados por agentes, com a empresa posicionando-o como um modelo mais rápido ajustado para tarefas no estilo OpenClaw, como uso de ferramentas, execução de cadeia longa e automação persistente.

Já está disponível por meio da interface de programação de aplicativos (API) da Z.ai em um provedor terceirizado OpenRouter com aproximadamente uma janela de contexto de token de 202,8 mil, saída máxima de 131,1 mil e preço listado de US$ 0,96 por milhão de tokens de entrada e US$ 3,20 por milhão de tokens de saída. Isso o torna cerca de US$ 0,04 mais barato por custo total de entrada e saída (em 1 milhão de tokens) do que seu antecessor, de acordo com nossos cálculos.

Modelo

Entrada

Saída

Custo total

Fonte

Grok 4.1 Rápido

US$ 0,20

US$ 0,50

US$ 0,70

xAI

Gêmeos 3 Flash

US$ 0,50

US$ 3,00

US$ 3,50

Google

Kimi-K2.5

US$ 0,60

US$ 3,00

US$ 3,60

Tiro lunar

GLM-5-Turbo

US$ 0,96

US$ 3,20

US$ 4,16

OpenRouter

GLM-5

US$ 1,00

US$ 3,20

US$ 4,20

Z.ai

Claude Haiku 4.5

US$ 1,00

US$ 5,00

US$ 6,00

Antrópico

Qwen3-Max

US$ 1,20

US$ 6,00

US$ 7,20

Nuvem Alibaba

Gêmeos 3 Pró

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.2

US$ 1,75

US$ 14,00

US$ 15,75

OpenAI

GPT-5.4

US$ 2,50

US$ 15,00

US$ 17,50

OpenAI

Soneto de Claude 4.5

US$ 3,00

US$ 15,00

US$ 18,00

Antrópico

Claude Opus 4.6

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.4 Pró

US$ 30,00

US$ 180,00

US$ 210,00

OpenAI

Em segundo lugar, a Z.ai também está adicionando o modelo ao seu produto de assinatura GLM Coding, que é o seu pacote de serviço de assistente de codificação. Esse serviço tem três níveis: Lite por US$ 27 por trimestre, Pro por US$ 81 por trimestre e Max por US$ 216 por trimestre.

A nota de lançamento da Z.ai em 15 de março diz que os assinantes Pro recebem o GLM-5-Turbo em março, enquanto os assinantes Lite recebem o GLM-5 básico em março e devem esperar até abril pelo GLM-5-Turbo. A empresa também está tomando inscrições de acesso antecipado para empresas por meio de um Formulário Googleo que sugere que alguns usuários podem obter acesso antes desse horário, dependendo da capacidade.

z.ai descreve o GLM-5-Turbo como projetado para “inferência rápida” e “profundamente otimizado para fluxos de trabalho de agentes do mundo real envolvendo longas cadeias de execução”, com melhorias na decomposição de instruções complexas, uso de ferramentas, execução agendada e persistente e estabilidade em tarefas estendidas.

O lançamento oferece aos desenvolvedores uma nova opção para construir agentes autônomos de IA no estilo OpenClaw e serve como um sinal sobre a direção que os fornecedores de modelos acham que a demanda corporativa está tomando: longe das interfaces de chat e em direção a sistemas que podem executar de forma confiável o trabalho em várias etapas.

É para lá que grande parte da concorrência também está se movendo, especialmente entre fornecedores que tentam conquistar desenvolvedores e equipes empresariais que criam assistentes internos, orquestradores de fluxo de trabalho e agentes de codificação.

Construído para execução, não apenas para conversação

Os materiais da Z.ai enquadram o GLM-5-Turbo como um modelo para o comportamento do agente semelhante ao da produção, em vez do uso estático de resposta imediata.

O argumento centra-se na fiabilidade em fluxos de tarefas práticas: melhor seguimento de comandos, invocação de ferramentas mais forte, melhor tratamento de tarefas agendadas e persistentes e execução mais rápida em cadeias lógicas mais longas. Esse posicionamento coloca o modelo diretamente no mercado para agentes que fazem mais do que responder perguntas.

Destina-se a sistemas que podem coletar informações, chamar ferramentas, quebrar instruções e continuar trabalhando em sequências de tarefas complexas com menos supervisão.

Em vez de um sucessor direto do GLM-5, o GLM-5-Turbo parece ser uma variante mais focada na execução: ajustada para velocidade, uso de ferramentas e estabilidade de agente de cadeia longa, enquanto o GLM-5 básico continua sendo o carro-chefe de código aberto mais amplo da Z.ai.

O GLM-5-Turbo parece especialmente competitivo em cenários OpenClaw, como busca e coleta de informações, tarefas diárias e de escritório, análise de dados, desenvolvimento e operações e automação. Esses são materiais fornecidos pela empresa, não são validação independente, mas deixam claro o posicionamento pretendido do produto.

Antecedentes: z.ai e GLM-5 preparam o cenário para o Turbo

Fundada em 2019 como uma subsidiária da Universidade Tsinghua em Pequim, a Z.ai – anteriormente Zhipu AI – é agora uma das empresas modelo de fundação mais conhecidas da China. A empresa permanece sediada em Pequim e é liderada pelo CEO Zhang Peng

Z.ai listada na Bolsa de Valores de Hong Kong em 8 de janeiro de 2026, com ações cotadas a HK$ 116,20 e abrindo a HK$ 120, com uma capitalização de mercado declarada de HK$ 52,83 bilhões, tornando-a a maior desenvolvedora independente de grandes modelos de linguagem da China.

Em 30 de setembro de 2025, seus modelos teriam sido usados ​​por mais de 12.000 clientes empresariais, mais de 80 milhões de dispositivos de usuários finais e mais de 45 milhões de desenvolvedores em todo o mundo.

O último grande lançamento da Z.ai, GLM-5, que estreou em fevereiro de 2026, fornece um contexto útil sobre o que a empresa está tentando fazer agora com o GLM-5-Turbo.

GLM-5 é um modelo carro-chefe de código aberto com licença do MIT, postando uma pontuação de alucinação recorde no Índice AA-Omniscience, e estreou um “Modo Agente” nativo que pode transformar prompts ou materiais de origem em arquivos .docx, .pdf e .xlsx prontos para uso.

Esse lançamento anterior também foi enquadrado como um grande avanço técnico para a empresa. O GLM-5 foi dimensionado para 744 bilhões de parâmetros com 40 bilhões de ativos por token em uma arquitetura mista de especialistas, usou 28,5 trilhões de tokens de pré-treinamento e contou com uma nova infraestrutura de aprendizagem por reforço assíncrona chamada “slime” para reduzir gargalos de treinamento e apoiar comportamentos de agente mais complexos.

Sob essa luz, o GLM-5-Turbo parece menos um substituto do GLM-5 do que uma ramificação comercial mais restrita: uma variante que mantém a orientação de agente de longo contexto da linha principal, mas enfatiza velocidade, estabilidade e execução em cadeias de agentes do mundo real.

Recursos do desenvolvedor e pacote de modelos

Do lado técnico, Z.ai vem empacotando a família GLM-5 com os tipos de recursos que os desenvolvedores agora esperam de modelos sérios voltados para agentes, incluindo manipulação de contexto longo, ferramentas, suporte de raciocínio e integrações estruturadas.

A página GLM-5-Turbo do OpenRouter lista suporte para ferramentas, escolha de ferramentas e formatação de resposta, ao mesmo tempo que exibe dados de desempenho ao vivo, incluindo rendimento médio e latência.

A telemetria de provedor do OpenRouter adiciona uma comparação útil em nível de implantação entre GLM-5 e GLM-5-Turbo, embora os dados não sejam perfeitamente iguais porque o GLM-5 aparece em vários provedores, enquanto o GLM-5-Turbo é mostrado apenas por meio de Z.ai.

Na taxa de transferência, o GLM-5-Turbo tem uma média de 48 tokens por segundo no OpenRouter, o que o coloca abaixo dos endpoints GLM-5 mais rápidos mostrados nas capturas de tela, incluindo Fireworks a 70 tok/s e Friendli a 58 tok/s, mas acima dos 40 tok/s do Together.

Na latência bruta do primeiro token, o GLM-5-Turbo é mais lento nos dados disponíveis, postando 2,92 segundos contra 0,41 segundos para o endpoint GLM-5 de Friendli, 1,00 segundo para Parasail e 1,08 segundos para DeepInfra.

Mas a imagem melhora no tempo de conclusão de ponta a ponta: o GLM-5-Turbo é mostrado em 8,16 segundos, mais rápido que os endpoints do GLM-5, que variam de 9,34 segundos no Fireworks a 11,23 segundos no DeepInfra.

A vantagem operacional mais notável está na confiabilidade da ferramenta. O GLM-5-Turbo apresenta uma taxa de erro de chamada de ferramenta de 0,67%, materialmente inferior à dos provedores GLM-5 mostrados, onde as taxas de erro variam de 2,33% a 6,41%.

Para as equipes empresariais, isso sugere um modelo que pode não vencer na capacidade de resposta inicial em seu roteamento OpenRouter atual, mas ainda pode ser mais adequado para execuções mais longas do agente, onde a estabilidade de conclusão e menor falha da ferramenta são mais importantes do que o primeiro token mais rápido.

Benchmarking e preços

z.ai Gráfico de benchmarking GLM-5 Turbo. Crédito: z.ai

Um gráfico de radar ZClawBench divulgado por z.ai mostra o GLM-5-Turbo como especialmente competitivo em cenários OpenClaw, como busca e coleta de informações, tarefas diárias e de escritório, análise de dados, desenvolvimento e operações e automação.

Esses são visuais de benchmark fornecidos pela empresa, não validação independente, mas ajudam a explicar como Z.ai deseja que os dois modelos sejam compreendidos: GLM-5 como a codificação mais ampla e carro-chefe aberto, e Turbo como a variante de execução de agente mais direcionada.

Um sinal de licenciamento mais matizado

Uma advertência notável é o licenciamento. Z.ai diz que o GLM-5-Turbo é atualmente de código fechado, mas também diz que as capacidades e descobertas do modelo serão incorporadas em seu próximo lançamento de modelo de código aberto. Essa é uma distinção importante. A empresa não está claramente prometendo abrir o código-fonte do próprio GLM-5-Turbo.

Em vez disso, está dizendo que as lições, técnicas e melhorias desta versão irão informar um futuro modelo aberto. Isso torna o lançamento mais matizado do que uma ruptura total com a abertura.

A estratégia GLM anterior da Z.ai apoiava-se fortemente em lançamentos abertos e distribuição aberta, o que ajudou a construir visibilidade entre os desenvolvedores.

O mercado de IA da China pode estar se reequilibrando longe do código aberto

A postura de licenciamento do GLM-5-Turbo também se enquadra em um contexto mais amplo do mercado chinês, o que torna o lançamento mais notável do que uma simples atualização de produto.

Nas últimas semanas, reportagens sobre a unidade Qwen do Alibaba levantaram novas questões sobre como os principais laboratórios de IA da China equilibrarão os lançamentos abertos com a pressão comercial.

No início deste mês, o chefe da divisão Qwen, Lin Junyang, deixou o cargo, tornando-se o terceiro executivo sênior da Qwen a sair em 2026, embora a família Qwen do Alibaba continue sendo um dos esforços de modelo aberto mais prolíficos do mundo, com mais de 400 modelos de código aberto lançados desde 2023 e mais de 1 bilhão de downloads.

A Reuters então relatou em 16 de março que o CEO do Alibaba, Eddie Wu, assumiria o controle direto de um grupo empresarial recém-formado com foco em IA, consolidando a Qwen e outras unidades, em meio ao escrutínio sobre estratégia, lucratividade e a concorrência brutal de preços em torno das ofertas de modelo aberto na China.

Mesmo sem exagerar, estes desenvolvimentos ajudam a enquadrar a questão mais ampla que paira sobre o setor: se a economia da IA ​​de fronteira está a começar a empurrar até mesmo os laboratórios chineses historicamente abertos para uma estratégia mais segmentada.

Isso não significa que os laboratórios chineses estejam abandonando o código aberto. Mas o padrão está a tornar-se mais difícil de ignorar: os modelos abertos ajudam a impulsionar a adoção, a boa vontade dos programadores e o alcance do ecossistema, enquanto certas variantes de elevado valor destinadas a agentes empresariais, fluxos de trabalho de codificação e outros casos de utilização comercialmente atrativos podem cada vez mais chegar primeiro como produtos proprietários.

Nesse sentido, o GLM-5-Turbo enquadra-se numa possível mudança maior no mercado de IA da China, que se parece cada vez mais com o manual utilizado pela OpenAI, Anthropic e Google nos EUA: abertura como distribuição, sistemas proprietários como negócios.

Visto sob essa luz, o GLM-5-Turbo parece mais do que uma atualização de produto focada na velocidade. Pode ser outro sinal de que partes do sector da IA ​​da China estão a evoluir em direcção ao mesmo modelo híbrido já comum nos EUA: abertura como distribuição, sistemas proprietários como negócios.

Isso não marcaria o fim da IA ​​de código aberto dos laboratórios chineses, mas poderia significar que as suas ofertas estrategicamente mais importantes focadas em agentes aparecem primeiro atrás do acesso fechado, mesmo que alguns dos seus avanços subjacentes mais tarde cheguem a versões abertas.

Para desenvolvedores que avaliam plataformas de agentes, isso torna o GLM-5-Turbo um lançamento de produto e um sinal útil. Z.ai ainda fala a linguagem dos modelos abertos. Mas com este lançamento, também mostra que alguns dos seus trabalhos mais relevantes comercialmente podem chegar primeiro como infraestrutura proprietária para sistemas de agentes de nível empresarial.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui