Início Tecnologia O Qwen3.7-Plus do Alibaba suporta entradas de texto, vídeo e imagens a...

O Qwen3.7-Plus do Alibaba suporta entradas de texto, vídeo e imagens a um baixo custo de US$ 0,4/US$ 1,6 por token de 1 milhão – mas é proprietário

48
0

Alibaba esta semana lançou Qwen3.7-Pluso mais recente modelo de linguagem grande (LLM) de IA em sua família Qwen, globalmente amada e cada vez mais expansiva, ostentando mais recursos multimodais e um custo 60% menor do que o modelo anterior, Qwen3.7-Max, apenas de texto, lançado há apenas algumas semanas.

No entanto, tal como o seu antecessor imediato, o Qwen3.7-Plus está disponível apenas sob uma licença comercial “fechada” via interfaces de programação de aplicativos (API) proprietárias e Qwen bate-papo.

Isso marca um grande afastamento da estratégia Qwen até o momento, que se concentrava principalmente no lançamento de modelos de código aberto poderosos e quase de última geração. As empresas e usuários que confiaram nos modelos Qwen de código aberto — entre eles, Gigantes dos EUA como Airbnb – sem dúvida ficará desapontado ao ver que o Alibaba será fechado para seus lançamentos mais recentes.

Ainda assim, vale a pena dar uma olhada no modelo devido ao seu baixo custo e alto desempenho em tarefas multimodais, como criação de recursos visuais de nível empresarial ou análise de vídeos, imagens e capturas de tela, o que o Qwen3.7-Max não pode fazer (é somente texto). Está entre os modelos de IA poderosos e mais baratos disponíveis agora, chegando em termos de preço logo acima do preço com desconto por tempo limitado do novo rival chinês MiniMax-M3.

Instantâneo de preços da API do modelo VentureBeat Frontier AI

Modelo

Entrada

Saída

Custo total

Fonte

Flash MiMo-V2.5

US$ 0,10

US$ 0,30

US$ 0,40

Xiaomi MiMo

deepseek-v4-flash

US$ 0,14

US$ 0,28

US$ 0,42

DeepSeek

deepseek-v4-pro

US$ 0,435

US$ 0,87

US$ 1.305

DeepSeek

MiniMax-M3

US$ 0,30

US$ 1,20

US$ 1,50

MiniMax

Qwen3.7-Plus

US$ 0,40

US$ 1,60

US$ 2,00

Nuvem Alibaba

Gêmeos 3.1 Flash-Lite

US$ 0,25

US$ 1,50

US$ 1,75

Google

MiMo-V2.5

US$ 0,40

US$ 2,00

US$ 2,40

Xiaomi MiMo

Grok 4.3 baixo contexto

US$ 1,25

US$ 2,50

US$ 3,75

xAI

GLM-5

US$ 1,00

US$ 3,20

US$ 4,20

Z.ai

Kimi-K2.6

US$ 0,95

US$ 4,00

US$ 4,95

Moonshot/Kimi

GLM-5.1

US$ 1,40

US$ 4,40

US$ 5,80

Z.ai

Alto contexto do Grok 4.3

US$ 2,50

US$ 5,00

US$ 7,50

xAI

Qwen3.7-Máx.

US$ 2,50

US$ 7,50

US$ 10,00

Nuvem Alibaba

Gêmeos 3.5 Flash

US$ 1,50

US$ 9,00

US$ 10,50

Google

Pré-visualização do Gemini 3.1 Pro ≤200K

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.4

US$ 2,50

US$ 15,00

US$ 17,50

OpenAI

Pré-visualização do Gemini 3.1 Pro> 200K

US$ 4,00

US$ 18,00

US$ 22,00

Google

Cláudio Opus 4.8

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.5

US$ 5,00

US$ 30,00

US$ 35,00

OpenAI

Manter a continuidade durante loops complexos de execução de ferramentas

Para os decisores técnicos que implementam agentes autónomos, o principal estrangulamento raramente tem sido a inteligência inicial do modelo. Em vez disso, é decadência do estado—a tendência de uma estrutura de agente perder sua trajetória analítica em tarefas de longo horizonte e múltiplas etapas.

Qwen3.7-Plus aborda essa vulnerabilidade arquitetônica por meio de uma abordagem combinada para gerenciamento de contexto e raciocínio de preservação do estado.

O modelo vem com um Janela de contexto de 1 milhão de tokens e aloca até 256 mil tokens especificamente para processamento interno da cadeia de pensamento. Para contextualizar essa capacidade, imagine um agente automatizado de migração para a nuvem: ele pode ingerir uma base de código inteira, mapear as dependências e gastar milhares de tokens avaliando silenciosamente casos extremos antes de executar uma única linha de script bash.

Crucialmente, a API expõe um parâmetro chamado ‘preserve_thinking.’ Em todo o ecossistema do Alibaba, a capacidade serve como uma ponte arquitetônica padronizada, em vez de uma vantagem escalonada. O Alibaba introduziu o recurso durante a geração anterior do Qwen 3.6, integrando-o tanto no peso aberto Qwen3.6-27B e os modelos proprietários Max.

Basicamente, o parâmetro opera no nível da API e do modelo para reter informações internas blocos em turnos de conversação contínuos.

Essa continuidade estrutural resolve um gargalo crítico para desenvolvedores que projetam tarefas de longo prazo. Ao manter esses loops lógicos internos intactos, o recurso evita que o modelo abandone seu contexto ou recalcule desnecessariamente seu histórico em cache no meio de uma operação.

Quando um modelo executa atribuições de codificação agente complexas e em várias etapas, essa retenção permite que o sistema mantenha sua linha de pensamento original sem perder o enredo ou esquecer a lógica subjacente de suas ações anteriores.

A Alibaba continua longe de ser a única a reconhecer esta necessidade técnica, uma vez que o conceito subjacente dita agora a arquitectura de quase todos os principais laboratórios de inteligência artificial.

A Anthropic implanta exatamente esse recurso sob o nome de “Extended Thinking” para seus modelos avançados, incluindo seu mais recente Claude Opus 4.8. Essa estrutura exige que os desenvolvedores alimentem blocos de pensamento não modificados diretamente na API nos turnos subsequentes para manter uma cadeia ininterrupta de raciocínio.

OpenAI enfrenta o mesmo desafio por meio de um mecanismo de retorno de raciocínio criptografado para modelos como GPT-5.5. Dentro do ecossistema OpenAI, os desenvolvedores devem retornar itens de raciocínio específicos gerados junto com chamadas de função anteriores, garantindo que o modelo se lembre explicitamente da lógica por trás das execuções de suas ferramentas.

Em última análise, preserve_thinking simplesmente representa a terminologia do Alibaba para o que rapidamente se tornou a aposta indiscutível do raciocínio moderno multivoltas.

Os benchmarks mostram um modelo competitivo, mas de última geração

Nas métricas de capacidade bruta, essa arquitetura profunda se traduz em ganhos estruturais em benchmarks multimodais e de agência. No entanto, ainda fica abaixo de muitas das gerações anteriores e líderes de modelos proprietários dos EUA, como Claude Opus 4.6 da Anthropic e GPT-5.4 da OpenAI.

Gráfico de comparação de benchmark Qwen3.7-Plus. Crédito: Alibaba Qwen

Sobre Banco Terminal 2.0-Terminusque mede a capacidade de um modelo de executar código real em nível de terminal com segurança e iterativamente, pontuou Qwen3.7-Plus 70,3superando DeepSeek-V4-Pro Max (67,9) e Gemini-3.1 Pro (63,5).

Em benchmarks de visão computacional que exigem compreensão localizada da interface, como TelaSpot Proo modelo bateu 79,0ultrapassando significativamente os destaques da indústria legada, como GPT-5.4 (xhigh) com 67,4 e Claude-Opus-4.6 com 49,5. Métricas de avaliação de agentes (referências selecionadas)

Para que as empresas devem considerar o Qwen3.7-Plus?

Para um arquiteto corporativo, a questão principal ao analisar o Qwen3.7-Plus é clara: O que isso substitui em nossa pilha de tecnologia atual?

O modelo foi projetado para substituir diretamente os principais modelos de fronteira (como modelos GPT-5-tier ou Claude-Max-tier) em fluxos de trabalho de desenvolvedores de alta frequência, automação de processos robóticos (RPA) e pipelines de engenharia de dados.

Em vez de implantar um modelo carro-chefe caro e de uso geral para lidar com operações repetitivas do sistema, as equipes técnicas podem encaminhar essas tarefas para o Qwen3.7-Plus. Ele lida com a interpretação da interface visual, execução de comandos e geração de código simultaneamente.

A Alibaba estruturou sua entrega de API para se alinhar às estruturas empresariais proprietárias e de código aberto existentes. Os endpoints são totalmente compatíveis com OpenAI, o que significa que a troca de dependências existentes requer ajustes mínimos de infraestrutura. Para grupos que utilizam estruturas de terminais autônomos, a integração tem suporte nativo em vários ambientes.

Os engenheiros podem executar o Qwen3.7-Plus diretamente por meio das configurações de terminal local, alterando os alvos do ambiente base.

Do ponto de vista puramente de custo, executar uma estrutura de agente que faz referência constante a repositórios de código massivos ou históricos de layout visual pode rapidamente se tornar um custo proibitivo.

O Alibaba resolve isso expondo preços granulares de cache.

O processamento de entrada padrão custa US$ 0,40 por milhão de tokens, mas se o agente estiver lendo de um cache criado explicitamente (por exemplo, um repositório base massivo ou um kit de UI corporativo padrão que permanece estático ao longo de centenas de loops automatizados), o custo cai drasticamente para US$ 0,04 por 1 milhão de tokens para leituras subsequentes.

Essa camada torna as iterações de agentes multivoltas e de alta frequência economicamente práticas em escala empresarial.

Nenhuma licença de código aberto ou pesos abertos levantam a questão da conformidade para as empresas

Ao avaliar qualquer modelo no ecossistema Qwen, a principal preocupação das equipes jurídicas e de segurança é a estrutura de licenciamento e os limites operacionais do pipeline de dados.

Embora as iterações anteriores da família Qwen tenham ganhado força empresarial significativa por meio da disponibilidade de peso totalmente de código aberto sob o Apache 2.0 ou licenças de uso aberto personalizadas, o Qwen3.7-Plus é fornecido estritamente como uma API de nuvem comercial gerenciada por meio do Alibaba Cloud Model Studio. Para a gestão de riscos empresariais, esta distinção traz implicações específicas:

  • Sem implantação de peso local: As organizações não podem fazer download, fazer sandbox ou hospedar localmente os pesos do Qwen3.7-Plus em seus data centers internos completamente isolados. Todas as chamadas de verificação de dados, processamento visual e execução devem passar pelos endpoints internacionais do Alibaba Cloud (por exemplo, a instância de Cingapura destacada na documentação do desenvolvedor).

  • Conformidade e Soberania: Como o modelo exige inferência baseada em nuvem, as empresas que operam sob estritos limites de dados soberanos (como entidades de saúde sujeitas a restrições locais da HIPAA/GDPR ou prestadores de serviços de defesa) devem avaliar explicitamente se o roteamento externo de API está em conformidade com suas obrigações específicas de residência de dados.

  • Mitigação de riscos gerenciados: por outro lado, uma estrutura de API gerenciada elimina a carga de infraestrutura interna de provisionamento, otimização e manutenção de clusters multi-GPU (como arrays Nvidia H100 dedicados) simplesmente para hospedar uma rede de agente interna.

Ainda assim, Qwen3.7-Plus oferece alta inteligência em todas as modalidades a baixo custo

A recepção inicial das comunidades de desenvolvedores e do capital de risco técnico destaca as mudanças na economia da implantação de agentes.

Voz proeminente da indústria e capitalista de risco da Web3 @Boxmining destacou a vantagem estratégica de custo, afirmando:

“Qwen 3.7 Plus sendo 40% mais barato que Max muda a conversa. Se a saída for próxima o suficiente para a maioria dos códigos e muito mais forte para fluxos de trabalho visuais, você realmente precisa do Max todos os dias ou apenas para trabalhos pesados ​​apenas de terminal?”

Esta perspectiva alinha-se com a tendência actual de optimização dos orçamentos operacionais das empresas: afastar-se da computação bruta e irrestrita em direcção à automatização de tarefas direccionadas. Ao mesmo tempo, investigadores especializados profundamente inseridos no ecossistema salientam que esta não é apenas uma optimização incremental da geração de texto.

Dunjie Lu, um estagiário de pesquisa no Alibaba Qwen, comentou:

“Ele mostra ganhos claros em relação ao Qwen3.6-Plus em recursos de uso de computador, com uma generalização mais forte além das tarefas gerais de desktop para fluxos de trabalho profissionais, como engenharia de dados e pesquisa científica”.

Em última análise, para os compradores empresariais que decidem sobre o seu próximo roteiro de infraestrutura, o Qwen3.7-Plus apresenta uma alternativa prática. Se o objetivo principal da sua organização é construir loops de software autônomos, resilientes e com capacidade visual que interagem diretamente com ambientes de desenvolvedor e consoles de nuvem, sem estourar seu orçamento de inferência, o modelo fornece um motivo convincente para mudar a execução de alternativas de fronteira mais caras.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui