Início Tecnologia Kimi K2.6 administra agentes por dias — e expõe os limites da...

Kimi K2.6 administra agentes por dias — e expõe os limites da orquestração empresarial

37
0

A maioria das estruturas de orquestração foi criada para agentes que funcionam por segundos ou minutos. Agora que os agentes funcionam por horas — e em alguns casos, dias — essas estruturas estão começando a falhar.

Vários provedores de modelos, como Anthropic com Claude Code e OpenAI com Codex, introduziram suporte antecipado para agentes de longo horizonte por meio de tarefas multisessão, subagentes e execução em segundo plano. No entanto, esses sistemas às vezes presumem que os agentes ainda estão operando em fluxos de trabalho de tempo limitado, mesmo quando funcionam por longos períodos.

O provedor de modelos de código aberto Moonshot AI quer ir além disso com seu novo modelo, Kimi K2.6.

Moonshot diz que o modelo foi projetado para execução contínua, com casos de uso interno incluindo agentes que funcionaram por horas e, em um caso, cinco dias seguidos, lidando com monitoramento e resposta a incidentes de forma autônoma.

Mas esse uso crescente desse tipo de agente está expondo uma lacuna crítica na orquestração: a maioria das estruturas de orquestração não foram projetadas para esse tipo de execução contínua e com estado. Modelos de código aberto, como o Kimi K2.6, que dependem de enxames de agentes, estão defendendo que sua abordagem de orquestração se aproxima do gerenciamento de agentes com estado.

As dificuldades de orquestrar agentes de longa duração

Embora seja verdade que algumas empresas preferem trazer as suas próprias estruturas de orquestração para o seu ecossistema de agentes, os fornecedores de modelos e as plataformas de agentes reconhecem que oferecer gestão de agentes continua a ser uma vantagem competitiva.

Outros provedores de modelos começaram a explorar agentes de longa duração, muitos deles por meio de tarefas multisessão e execução em segundo plano. Por exemplo, o Claude Code da Anthropic orquestra agentes com um agente líder que dirige outros agentes com base em um conjunto de definições instruídas pelo usuário. Códice da OpenAI funciona de forma semelhante.

Kimi K2.6 aborda a orquestração com uma versão aprimorada de seus Agent Swarms, capaz de gerenciar até 300 subagentes “executando 4.000 etapas coordenadas simultaneamente”. Moonshot AI escreveu em uma postagem de blog. Comparado ao Claude Code e ao Codex, o K2.6 depende do modelo, em vez de funções predefinidas, para determinar a orquestração.

Kimi K2.6 já está disponível no Hugging Face, por meio de sua API, Kimi Code e do aplicativo Kimi.

Os profissionais que fazem experiências com agentes de longo horizonte dizem que a fragilidade é mais profunda do que a solicitação pode resolver.

Como um praticante, Maxim Saplin, colocou em uma postagem no blog“Isso não significa que os subagentes sejam inúteis. Significa que a orquestração ainda é frágil. No momento, parece mais um problema de produto e treinamento do que algo que você pode resolver escrevendo um prompt suficientemente severo.”

O problema que os agentes de longa duração representam é que é difícil manter o seu estado, especialmente porque o seu ambiente continua a mudar enquanto eles fazem o seu trabalho. O agente chamava constantemente diferentes ferramentas e APIs ou acessava diferentes bancos de dados durante seu tempo de execução. A maioria dos agentes atuais, aqueles que podem executar uma ou duas execuções, chamam ferramentas diferentes, mas por no máximo um minuto.

Mark Lambert, diretor de produtos da ArmorCode, que constrói uma plataforma de segurança autônoma para empresas, disse à VentureBeat por e-mail que a lacuna de governança já está ultrapassando a implantação.

“Esses sistemas de agente agora podem gerar mudanças de código e sistema mais rápido do que a maioria das organizações pode revisá-los, remediá-los ou governá-los. Isso exigirá mais do que apenas varredura adicional. As organizações precisarão de uma governança de IA mais forte que forneça o contexto, a priorização e a responsabilidade que as equipes precisam para gerenciar o Kimi e outros riscos gerados pela IA antes que se transformem em exposição acumulada”, disse Lambert.

Agentes de longa duração também correm o risco de falhar sem uma reversão clara. Mais importante ainda, estes tipos de agentes muitas vezes carecem de um conjunto de tarefas bem definidas e ajustam dinamicamente os seus planos à medida que são executados.

Kunal Anand, diretor de produtos da F5, disse à VentureBeat por e-mail que os agentes de longo prazo representam uma mudança arquitetônica muito maior do que a maioria das empresas estava preparada.

“Passamos de scripts para serviços, para contêineres, para funções e agora para agentes como infraestrutura persistente. Isso cria categorias para as quais ainda não temos bons nomes: tempo de execução de agente, gateway de agente, provedor de identidade de agente, malha de agente. O padrão de gateway de API está se transformando em algo que precisa entender objetivos e fluxos de trabalho, não apenas pontos de extremidade e verbos”, disse Anand.

Correndo por 13 horas e até cinco dias

Compreender como orquestrar agentes torna-se importante porque as capacidades do modelo começaram a ultrapassar as inovações de orquestração, mesmo quando as empresas começam a olhar para agentes de longo horizonte.

Moonshot AI afirma que o modelo foi construído para tarefas que refletem “desafios do mundo real que normalmente exigem semanas ou meses de esforço humano coletivo”. Em um documento técnico separado fornecido à VentureBeat, Moonshot afirma que K2.6 construiu um compilador SysY completo do zero em 10 horas – trabalho caracterizado como equivalente a uma equipe de quatro engenheiros durante dois meses – e passou em todos os 140 testes funcionais sem intervenção humana.

A equipe implantou o K2.6 para tarefas complexas de engenharia, incluindo a revisão de um mecanismo de correspondência financeira de código aberto com oito anos de existência. Os engenheiros da Moonshot descreveram uma execução de 13 horas que “iterou através de 12 estratégias de otimização, iniciando mais de 1.000 chamadas de ferramenta para modificar mais de 4.000 linhas de código com precisão”.

Moonshot disse que uma de suas equipes usou o K2.6 para construir um agente que funcionou de forma autônoma por cinco dias. Esse agente gerenciava o monitoramento, a resposta a incidentes e as operações do sistema.

fonte