Início Tecnologia Kimi K2.7-Code corta tokens de pensamento em 30% – mas os profissionais...

Kimi K2.7-Code corta tokens de pensamento em 30% – mas os profissionais dizem que os benchmarks não conferem

30
0

Moonshot AI lançou Kimi K2.7-Code esta semana, uma atualização de código aberto para sua família de modelos de codificação K2, alegando um raciocínio mais enxuto e ganhos de desempenho de dois dígitos.

O K2.7-Code é construído na mesma arquitetura de mistura de especialistas de trilhões de parâmetros de seu antecessor K2.6 e é implementado por meio de uma API compatível com OpenAI – o que é importante para equipes que já executam o K2.6 em gateways de produção.

Quando o K2.6 foi lançado em abril, ele liderou o ranking LLM semanal do OpenRouter – uma classificação baseada em decisões reais de roteamento de API feitas por desenvolvedores, e não em pontuações de benchmark auto-relatadas.

Moonshot AI diz que o K2.7-Code aborda o que chama de “pensamento excessivo”, reduzindo o uso de tokens de pensamento em 30% em comparação com K2.6 – um número que afetaria diretamente os custos de inferência para equipes que executam fluxos de trabalho de agente. Se esse ganho de eficiência se mantém em parâmetros de referência independentes é uma questão que os profissionais já começaram a levantar publicamente.

O que é o código Kimi K2.7

K2.7-Code é lançado sob uma licença modificada do MIT, com pesos disponíveis no HuggingFace. O modelo pode ser implementado via vLLM ou SGLang. Ele funciona exclusivamente no modo de pensamento e não suporta ajuste de temperatura – Moonshot AI corrigiu-o em 1.0, o que significa que as equipes não podem ajustar o determinismo de saída da mesma forma que fariam com outros modelos.

A principal mudança do K2.6 é como o modelo gera código de baixo nível. Onde K2.6 produziu implementações agrupando bibliotecas existentes e roteamento por meio de estruturas estabelecidas, K2.7-Code cria implementações diretamente. Moonshot AI afirma que isso produz uma generalização mais confiável em Rust, Go e Python, e em todos os tipos de tarefas, incluindo desenvolvimento de front-end, DevOps e otimização de desempenho.

No desempenho de benchmark, Moonshot AI afirma ganhos de 21,8% no Kimi Code Bench v2, 11% no Program Bench e 31,5% no MLS Bench Lite. Todos os três são benchmarks proprietários executados pela Moonshot AI. O modelo não foi submetido ao DeepSWE, um benchmark de codificação independente que produz um spread de 70 pontos entre os modelos – em comparação com o spread de 30 pontos do SWE-Bench Pro – tornando-o um sinal mais discriminatório para equipes que configuram sistemas de roteamento de modelo.

Transformação VB · 14 a 15 de julho · Menlo Park · Inferência e infraestrutura de IA

A GM obteve um salto de 300% nas PRs mescladas ao reestruturar os agentes. Aqui está o que eles construíram.

O curso de infraestrutura no Transform abrange geração de vídeo em tempo real, pilhas de raciocínio máquina a máquina e o que realmente é necessário para executar agentes em escala empresarial.

Veja a agenda completa →

Mais honesto, mais fraco por isso

A imagem fora dos benchmarks do Moonshot é mais complicada.

O pesquisador Elliot Arledge executou K2.7-Code contra K2.6 e Claude Fable 5 no KernelBench-Hard, um benchmark público focado na otimização de kernel de GPU, e publicou seus logs de execução completos em kernelbench.com.

“K2.7 é mais honesto, mas não mais capaz” Arledge escreveu no X.

Em cinco dos seis problemas, o K2.7-Code produziu kernels Triton de autoria real, onde o K2.6 usou wrappers de biblioteca. Dois desses kernels falharam devido aos próprios bugs do modelo. O resultado do kernel do MoE regrediu da pontuação de K2.6 de 0,222 para 0,157.

“Fable, para referência, supera todas as células que não falha honestamente”, escreveu Arledge.

Sugumaran Balasubramaniyan, um desenvolvedor que construiu um roteador de tarefas modelo para a plataforma Hermes Agent usando DeepSWE como seu sinal de referência, respondeu publicamente ao lançamento do código K2.7 e desafiou Moonshot AI diretamente nas escolhas de benchmark.

“Respeitosamente, cada modelo ‘melhora’ dois dígitos em seu próprio conjunto de testes,” Balasubramaniyan escreveu no X.

Ele observou que K2.6 obteve 24% no DeepSWE, empatado com GPT-5.4-mini, e perguntou se Moonshot AI submeteria K2.7-Code ao mesmo benchmark.

Balasubramaniyan disse que foram necessárias 13 rodadas de revisão para obter os dados de benchmark corretos para seu roteador e que encaminharia as tarefas de codificação para o K2.7-Code se os números independentes se mantivessem.

O que isso significa para as empresas

O ganho de eficiência do token pode ser utilizado imediatamente. As equipes que executam o K2.6 em produção podem trocar o código K2.7 por meio da API compatível com OpenAI e esperar custos de inferência mais baixos em fluxos de trabalho de agente sem uma mudança de arquitetura. A redução de 30% do token de pensamento é o número do próprio Moonshot, mas o caminho de integração é de baixo risco o suficiente para testar suas próprias cargas de trabalho antes de confirmar.

A questão prática é se esses ganhos de eficiência se mantêm na distribuição de tarefas da própria equipa. Executar o K2.7-Code em suas próprias cargas de trabalho antes de ajustar os pesos do gateway é o caminho de baixo risco para descobrir.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui