Início Tecnologia Aprendizagem por imitação visual: Guidde treina agentes de IA em ‘vídeo especializado’...

Aprendizagem por imitação visual: Guidde treina agentes de IA em ‘vídeo especializado’ humano em vez de documentação

18
0

Durante anos, a “última milha” da transformação digital esteve repleta de PDFs esquecidos e manuais de treinamento ignorados.

As organizações gastam milhões em software sofisticado como SAP ou Salesforce, apenas para que os funcionários tenham dificuldades com a navegação básica. Agora, à medida que chega a era da IA ​​de agência, as empresas enfrentam uma faca de dois gumes: devem ensinar os funcionários humanos a colaborar com a IA, ao mesmo tempo que ensinam os agentes de IA a navegar nas interfaces labirínticas da empresa moderna.

Uma ideia que parece estar ganhando força entre as empresas que utilizam IA: usar gravações de tela e tutoriais/orientações de alguém executando uma tarefa empresarial – seja criando um novo ticket ou processando uma fatura – e treinando a IA para replicar o fluxo com base na captura de tela. Ainda esta semana, uma startup chamada A Inteligência Padrão se tornou viral no X mostrando uma demonstração inicial da versão aberta para o mundo físico e digital.

Mas a verdade é que já existem players que enfrentam este problema para a própria empresa: caso em questão, Guiauma startup israelense nascida durante os anos centrados em vídeo da pandemia de COVID-19, anunciou hoje uma série B de US$ 50 milhões com excesso de assinaturas rodada de financiamento liderada pela PSG Equity para enfrentar exatamente esta crise de infraestrutura de conhecimento.

Em vez de alimentar um agente com um manual em PDF estático, o Guidde fornece “Video Ground Truth” de alta fidelidade – um rico fluxo de dados capturados de especialistas humanos reais enquanto eles navegam em software complexo.

O investimento sinaliza uma mudança na forma como a indústria tecnológica vê a documentação – não como um subproduto estático do trabalho, mas como a telemetria crítica necessária para treinar a próxima geração de agentes digitais autónomos.

Tecnologia: da captura de vídeo aos modelos mundiais

Basicamente, Guidde é uma plataforma de adoção digital de IA (ADAP). No entanto, o seu avanço tecnológico reside no que acontece nos bastidores durante uma gravação.

Guidde não está apenas gravando pixels; está capturando cada clique, rolagem e interação latente com a página HTML—as pausas sutis, as profundidades específicas de rolagem e as correções que um ser humano faz quando um sistema fica lento. Essa telemetria transforma o vídeo bruto em um conjunto de treinamento Vision-Language-Action (VLA).

Enquanto isso, o Magic Redaction da plataforma oculta automaticamente dados confidenciais, como senhas ou números de cartão de crédito durante a captura, garantindo que os materiais permaneçam seguros e alinhados à HIPAA.

“Cada vez que você clica em um botão, arrasta e solta, rola, digita, reunimos a interação… tudo isso, nós limpamos – não há informações privadas”, explicou o cofundador e CEO da Guidde, Yoav Einav, em entrevista exclusiva ao VentureBeat.

Nos bastidores, a plataforma captura os metadados subjacentes e as alterações do DOM (Document Object Model) sincronizadas com os quadros de vídeo. O diferenciador é a telemetria escondida abaixo da superfície.

Esses ricos metadados criam um “modelo de mundo digital” de software empresarial. E como cada empresa usa seu próprio mix exclusivo de aplicativos e processos, Guidde está criando um fosso de dados que permite aos agentes corporativos raciocinar através de UIs herdadas com a mesma consciência espacial de um ser humano, garantindo que a automação realmente funcione em um ambiente de produção, em vez de apenas em uma demonstração de laboratório.

Para um humano, é um tutorial. Para um agente de IA, é um mapa de interface de alta fidelidade. Isso permite que os agentes “vejam” e raciocinem através de interfaces de usuário complexas da mesma forma que os humanos fazem, resolvendo a “última milha” da automação onde os agentes falharam anteriormente devido à falta de contexto empresarial específico e de uso in-situ.

De certa forma, Guidde está construindo um “carro autônomo” como o Waymo para uso no computador.

Produto: três pilares da Orientação

A plataforma evoluiu para três produtos distintos projetados para serem dimensionados de acordo com a maturidade da organização:

  1. Guia Criar: o mecanismo para especialistas no assunto transformarem fluxos de trabalho em documentação em minutos.

  2. Transmissão guia: um mecanismo de recomendação personalizado (geralmente comparado ao Netflix) que fornece respostas dentro das ferramentas que as pessoas realmente usam. Ele sabe quem é o usuário e em que departamento ele está para exibir conteúdo relevante exatamente quando necessário.

  3. Guia Descobrir: O recém-lançado pilar “agentico”. Assim como o Waze mapeia estradas observando os motoristas, o Discover mapeia rotas de software rastreando como os funcionários trabalham. Ele entende o fluxo de trabalho, cria o conteúdo e o atualiza automaticamente quando a IU muda.

Treinar humanos como usar IA – e IA usando humanos

O aspecto menos óbvio do crescimento da Guidde é a sua missão de duplo propósito. “Somos a única plataforma que treina humanos e agentes”, afirmou Einav.

À medida que as empresas implementam ferramentas de IA, como o Microsoft 365 Copilot ou os agentes ServiceNow, elas encontram uma lacuna de proficiência. Um dos maiores clientes da Guidde revelou que estava pagando mais de US$ 1 milhão por ano por uma ferramenta sofisticada de IA, mas “ninguém sabe como usá-la porque gostou de uma sessão de treinamento de 30 minutos e pronto”. Guidde preenche essa lacuna fornecendo tutoriais em vídeo “pequenos” no fluxo de trabalho.

Simultaneamente, esses vídeos treinam os próprios agentes de IA. Modelos básicos como Gemini ou GPT-4 muitas vezes têm alucinações quando encarregados de fluxos de trabalho corporativos específicos porque não foram treinados nos “fluxos de trabalho básicos” internos altamente específicos encontrados em sistemas empresariais privados. Guidde fornece o “ponto de partida”, os “metadados” e as “coordenadas x, y do botão” que um agente precisa para concluir uma ação sem ficar preso.

A vantagem multimodal

Para manter este nível de precisão, a Guidde utiliza uma infraestrutura multimodal. O sistema não depende de um único modelo; em vez disso, utiliza uma “frota” de modelos que avaliam uns aos outros.

  • Google Gêmeos: geralmente usado para tarefas visuais, como análise de PDFs ou PowerPoints.

  • Claude antrópico: Aproveitado para escrever o enredo e os roteiros narrativos.

  • Ciclos de Feedback: quando um usuário edita um vídeo, esses dados são realimentados no modelo para evitar que os mesmos erros ocorram em capturas futuras.

Essa abordagem permite que a Guidde substitua uma pilha herdada de seis ou sete ferramentas desconectadas – Loom para captura, Adobe Premiere para edição, 11Labs para conversão de texto em fala e Synthesia para avatares – por uma única plataforma nativa de IA. “Basicamente embalamos tudo para você”, diz Einav, “e automatizamos todo o processo com base nas diretrizes de sua marca”.

História de origem do primeiro vídeo

A gênese da Guidde reside em uma frustração familiar a qualquer líder de produto. Antes de fundar a empresa, Einav e o cofundador Dan Sahar passaram anos dominando o tráfego de vídeo na Qwilt, uma empresa que fundaram em 2010 para analisar como as pessoas assistiam Netflix e Disney+.

Quando a COVID-19 chegou, eles viram uma enorme oportunidade de aplicar essa experiência em vídeo ao local de trabalho. Eles observaram que pequenos vídeos explicativos poderiam aumentar as conversões de contas gratuitas em 30%, mas o atrito de criá-los era insustentável.

Em entrevista, Einav relembrou o “trabalho tedioso” do velho mundo: “Minha equipe em Israel estava criando o conteúdo, alguém nos EUA com sotaque americano fazia a narração, alguém da equipe de marketing escreveria o roteiro… e alguém da equipe de capacitação faria a edição.” Esse fluxo de trabalho fragmentado significava que um único vídeo levava de duas a três semanas para ser produzido. “E então, duas semanas depois, o produto muda e você precisa refazê-lo do zero”, acrescentou Einav.

Guidde foi construído para reduzir esse ciclo em segundos. Ao automatizar a “Captura Mágica” de um fluxo de trabalho, a plataforma gera instantaneamente um roteiro narrativo estruturado e uma narração profissional de IA. Isso elimina o gargalo de edição, transformando especialistas no assunto em “potências de treinamento”.

Licenciamento e impacto no mercado

A estrutura de preços da Guidde reflete sua transição de um serviço público para uma peça central da infraestrutura empresarial:

  • Livre: $ 0 (até 25 vídeos, suporte para aplicativos da web).

  • Pró: US$ 18/criador/mês (vídeos ilimitados, kits de marca).

  • Negócios: US$ 39/criador/mês (texto para voz ilimitado, análises).

  • Empresa: Preços personalizados (tradução multilíngue, SSO, Magic Redaction).

O impacto da plataforma já é visível nos números: uma Redução de 41% no tempo de criação de vídeo e 34% menos tickets de suporte recebidos.

Para clientes como a Emerson, isso se traduz em uma criação de guias 40–60% mais rápida. As equipes de suporte, em particular, estão descobrindo que podem transferir 80% do seu volume de tickets para os agentes, mas apenas se esses agentes tiverem conteúdo útil.

“O agente sem o conteúdo é inútil”, alerta Einav, observando que a maior parte da documentação empresarial está desatualizada há anos ou totalmente indocumentada.

Recepção antecipada da comunidade e da indústria

A Guidde já conta com 4.500 clientes empresariais e pretende expandir esse número com sua nova rodada de financiamento. Os líderes de suporte e operações têm falado abertamente sobre a facilidade de uso da plataforma. Christopher Cummings, vice-presidente de experiência do cliente da DocNetwork, destacou sua capacidade de fornecer “respostas em vídeo rápidas e personalizadas às perguntas dos clientes”.

Enquanto isso, Wren Cotrone, Diretor de Suporte ao Cliente, observou que “Depois de definir a marca da maneira desejada, você pode realmente ampliar essas coisas”.

Ronen Nir, Diretor Geral do PSG, resumiu a tese de investimento: “Guidde está resolvendo um dos maiores obstáculos para o sucesso da adoção da IA: a infraestrutura de conhecimento”.

Por que isso é importante agora

A mudança de paradigma de LLMs somente de texto para inteligência de vídeo de agente é a tendência definidora de 2026. A Série B de Guidde sinaliza que a “verdade básica” para agentes corporativos virá da observação de vídeo bruta, e não da documentação estática.

Ao capturar como o trabalho é realizado em dezenas de milhões de fluxos de trabalho, Guidde está construindo um conjunto de dados que poucos possuem.

Como disse Einav: “Tudo começa com os humanos envolvidos e, com o tempo, avança em direção à autonomia total”. Para a empresa moderna, o mapa não é mais um documento estático – é uma camada viva e dinâmica de inteligência de vídeo que orienta tanto a força de trabalho quanto os agentes que os apoiam.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui