A IA de voz está se movendo mais rápido do que as ferramentas que usamos para medi-la. Todos os principais laboratórios de IA – OpenAI, Google DeepMind, Anthropic, xAI – estão correndo para lançar modelos de voz capazes de conversas naturais e em tempo real.
Mas os parâmetros de referência utilizados para avaliar esses modelos ainda funcionam, em grande parte, com discurso sintético, comandos apenas em inglês e conjuntos de testes programados que têm pouca semelhança com a forma como as pessoas realmente falam.
Escalar IAa inicialização de anotação de grandes dados cujo fundador foi contratado pela Meta no ano passado para liderar seu Laboratório de Superinteligênciacontinua forte e enfrentando o problema de frente: hoje lança Confronto de Vozo que chama de primeira arena global baseada em preferências projetada para avaliar a IA de voz através das lentes da interação humana real.
Este produto oferece um valor estratégico único aos usuários: acesso gratuito aos principais modelos de fronteira do mundo. Por meio da plataforma ChatLab da Scale, os usuários podem interagir com modelos de alto nível – que normalmente exigem várias assinaturas de US$ 20 por mês – sem nenhum custo. Em troca, os usuários participam de “batalhas” ocasionais, cegas e frente a frente, para escolher qual dos dois principais modelos de voz anônimos oferece uma melhor experiência, fornecendo dados para o ranking de modelos de IA de voz mais autênticos e de preferência humana do setor.
“Voice AI é realmente a fronteira mais rápida em IA no momento”, disse Janie Gu, gerente de produto da Showdown at Scale AI. “Mas a forma como avaliamos os modelos de voz não acompanhou.”
Os resultados, extraídos de milhares de conversas espontâneas por voz em mais de 60 idiomas, revelam lacunas de capacidade que outros benchmarks têm consistentemente ignorado.
Como funciona o Voice Showdown do Scale
Voice Showdown é construído no ChatLab, a plataforma de bate-papo independente de modelo da Scale, onde os usuários podem interagir livremente com qualquer modelo de IA de fronteira que escolherem – gratuitamente – em um único aplicativo. A plataforma está disponível para a comunidade global da Scale de mais de 500.000 anotadores, dos quais cerca de 300.000 enviaram pelo menos um prompt. A Scale está abrindo a plataforma para uma lista de espera pública hoje.
O mecanismo de avaliação é elegante em sua simplicidade: enquanto um usuário está tendo uma conversa de voz natural com um modelo, o sistema ocasionalmente – em menos de 5% de todos os comandos de voz – apresenta uma comparação cega lado a lado. O mesmo prompt é enviado para um segundo modelo anônimo, e o usuário escolhe a resposta de sua preferência.
Este design resolve três problemas que afetam os benchmarks de voz existentes.
Primeiro, cada prompt vem da fala humana real – com sotaques, ruído de fundo, frases incompletas e preenchimento de conversação – em vez de áudio sintetizado gerado a partir de texto.
Em segundo lugar, a plataforma abrange mais de 60 idiomas em 6 continentes, com mais de um terço das batalhas ocorrendo em idiomas diferentes do inglês, incluindo espanhol, árabe, japonês, português, hindi e francês.
Terceiro, como as batalhas ocorrem nas conversas diárias reais dos usuários, 81% das solicitações são conversacionais ou abertas – perguntas sem uma única resposta correta. Isso exclui a pontuação automatizada e faz da preferência humana o único sinal credível.
O Voice Showdown atualmente executa dois modos de avaliação: Ditar (os usuários falam, os modelos respondem com texto) e Fala para Fala, ou S2S (Fala para Fala, os usuários falam, os modelos respondem). Um terceiro modo – Full Duplex, que captura conversas interrompíveis em tempo real – está em desenvolvimento.
Votação alinhada por incentivos
Um detalhe de design diferencia o Voice Showdown do Chatbot Arena (LM Arena), o benchmark de texto com o qual ele mais se assemelha. Na LM Arena, os críticos notaram que os usuários às vezes dão votos descartáveis, com pouca participação no resultado. O Voice Showdown aborda isso diretamente: depois que um usuário vota no modelo de sua preferência, o aplicativo o alterna para esse modelo pelo resto da conversa. Se você votou no GPT-4o Audio em vez do Gemini, agora está falando com o GPT-4o Audio. Esse alinhamento das consequências com as preferências desencoraja o voto casual ou desonesto.
O sistema também controla confusões que podem corromper as comparações: as respostas de ambos os modelos começam a ser transmitidas simultaneamente (eliminando o preconceito de velocidade), o género da voz é correspondido em ambas as opções (eliminando o preconceito de preferência de género) e nenhum dos modelos é identificado pelo nome durante a votação.
O novo ranking de Voice AI ao qual todo tomador de decisão empresarial deve prestar atenção
Voice Showdown é lançado com 11 modelos de fronteira avaliados em 52 pares modelo-voz em 18 de março de 2026. Nem todos os modelos suportam ambos os modos de avaliação – a tabela de classificação Dictate inclui 8 modelos, enquanto S2S inclui 6.
Ditar placar (Speech-In, Text-Out)
Nesse modo, os usuários fornecem um prompt falado e avaliam duas respostas de texto lado a lado. Aqui estão as pontuações básicas:
-
Gêmeos 3 Pró (1073)
-
Gêmeos 3 Flash (1068)
-
Áudio GPT-4o (1019)
-
Qwen 3 Omni (1000)
-
Voxtral Pequeno (925)
-
Gema 3n (918)
-
GPT em tempo real (875)
-
Phi-4 Multimodal (729)
Observação: Gemini 3 Pro e Gemini 3 Flash estão estatisticamente empatados no topo da classificação.
Tabela de classificação de fala para fala (S2S)
Neste modo, os usuários falam com o modelo e avaliam duas respostas de áudio concorrentes. Também linhas de base:
-
Áudio Flash Gêmeos 2.5 (1060)
-
Áudio GPT-4o (1059)
-
Voz Grok (1024)
-
Qwen 3 Omni (1000)
-
GPT em tempo real (962)
-
GPT em tempo real 1.5 (920)
Observação: Gemini 2.5 Flash Audio e GPT-4o Audio estão estatisticamente empatados no topo da classificação nas avaliações iniciais.
As classificações do Dictate são lideradas pelo Gemini 3 Pro e Gemini 3 Flash do Google, que estão estatisticamente empatados em primeiro lugar, com pontuações Elo em torno de 1.043-1.044 após controles de estilo.
GPT-4o Audio ocupa um claro terceiro lugar. Modelos de peso aberto, incluindo Gemma3n, Voxtral Small e Phi-4 Multimodal, trilham significativamente.
As classificações de Speech-to-Speech (S2S) mostram uma corrida mais acirrada no topo, com Gemini 2.5 Flash Audio e GPT-4o Audio empatados estatisticamente em primeiro lugar nas classificações de base.
Depois de ajustar o comprimento e a formatação da resposta – fatores que podem aumentar a qualidade percebida – o GPT-4o Audio sai na frente (1.102 Elo vs. 1.075 para Gemini 2.5 Flash Audio).
Grok Voice salta para um segundo lugar em 1.093 sob controles de estilo, sugerindo que sua classificação bruta em 3º lugar subestima sua qualidade real de desempenho.
Qwen 3 Omni, o modelo aberto da equipe Qwen do Alibaba, tem melhor desempenho em pura preferência do que sua popularidade sugere – ficando em quarto lugar em ambos os modos, à frente de vários nomes de maior perfil.
“Quando as pessoas chegam, elas procuram os grandes nomes”, observou Gu. “Mas, de preferência, modelos menos conhecidos como Qwen realmente estão na frente.”
Surpreso revelado por dados de preferências do mundo real
Além das classificações, o valor real do Voice Showdown está no diagnóstico de falhas – e elas pintam um quadro mais complicado da IA de voz do que a maioria das tabelas de classificação revela.
A lacuna multilíngue é pior do que você pensa
A robustez da linguagem é o maior diferenciador entre os modelos. No Dictate, os modelos Gemini 3 lideram essencialmente em todas as linguagens testadas.
No S2S, o vencedor depende muito do idioma falado: GPT-4o Audio lidera em árabe e turco; Gemini 2.5 Flash Audio é mais forte em francês; Grok Voice é competitivo em japonês e português.
Mas a descoberta mais alarmante é a frequência com que alguns modelos simplesmente param de responder na língua do usuário.
GPT Realtime 1.5 – o mais novo modelo de voz em tempo real da OpenAI – responde em inglês a solicitações em idiomas diferentes do inglês cerca de 20% do tempo, mesmo em idiomas oficialmente suportados e com muitos recursos, como hindi, espanhol e turco.
Seu antecessor, GPT Realtime, apresenta incompatibilidade em cerca de metade dessa taxa (~10%). Gemini 2.5 Flash Audio e GPT-4o Audio ficam em aproximadamente 7%.
O fenômeno ocorre em ambas as direções: alguns modelos transportam o contexto não-inglês do início de uma conversa para um turno em inglês, ou simplesmente interpretam mal um prompt e geram uma resposta não relacionada no idioma totalmente errado.
Os textos textuais dos usuários da plataforma capturam a frustração sem rodeios: “Eu disse que tenho uma entrevista hoje com o Quest Management e, em vez de responder, ele me deu informações sobre ‘Gerenciamento de riscos'”.
“O GPT Realtime 1.5 achou que eu estava falando de forma incoerente e recomendou assistência de saúde mental, enquanto o Qwen 3 Omni identificou corretamente que eu estava falando um idioma local nigeriano.”
A razão pela qual os benchmarks existentes não percebem isso: eles são baseados em fala sintética otimizada para condições acústicas limpas e raramente são multilíngues. Alto-falantes reais em ambientes reais — com ruído de fundo, expressões curtas e sotaques regionais — prejudicam a compreensão da fala de maneiras que as condições do laboratório não prevêem.
A seleção de voz é mais do que estética
O Voice Showdown avalia os modelos não apenas no nível do modelo, mas também no nível da voz individual – e a variação no catálogo de voz de um único modelo é impressionante.
Para um modelo não identificado no estudo, a voz com melhor desempenho ganhou 30 pontos percentuais mais frequentemente do que a voz com pior desempenho do mesmo modelo subjacente. Ambas as vozes compartilham o mesmo raciocínio e back-end de geração. A diferença está puramente na apresentação de áudio.
As vozes de melhor desempenho tendem a ganhar ou perder na compreensão do áudio e na integridade do conteúdo – independentemente de o modelo ter ouvido você corretamente e respondido completamente. Mas a qualidade da fala continua a ser um factor decisivo ao nível da selecção da voz, particularmente quando os modelos são comparáveis. “A voz molda diretamente a forma como os usuários avaliam a interação”, disse Gu.
Modelos degradam na conversa
A maioria dos benchmarks testa uma única curva. O Voice Showdown testa como os modelos se comportam em conversas prolongadas – e os resultados não são lisonjeiros.
Na Curva 1, a qualidade do conteúdo é responsável por 23% das falhas do modelo. Na curva 11 e além, torna-se o principal modo de falha com 43%. A maioria dos modelos vê suas taxas de vitória diminuirem à medida que as conversas se estendem, lutando para manter a coerência entre múltiplas trocas.
As variantes GPT Realtime são uma exceção, melhorando marginalmente em turnos posteriores – consistente com seus pontos fortes conhecidos em contextos mais longos e sua fraqueza documentada nas declarações breves e barulhentas que dominam as interações iniciais.
A duração dos prompts mostra um padrão complementar: prompts curtos (menos de 10 segundos) são dominados por falhas de compreensão de áudio (38%), enquanto prompts longos (mais de 40 segundos) transferem a falha primária para a qualidade do conteúdo (31%). O áudio mais curto dá aos modelos menos contexto acústico para analisar; solicitações mais longas são compreendidas, mas mais difíceis de responder bem.
Por que alguns modelos de IA de voz perdem
Após cada comparação S2S, os usuários marcam por que preferiram uma resposta a outra em três eixos: compreensão de áudio, qualidade de conteúdo e saída de fala. As assinaturas de falha diferem significativamente por modelo.
As perdas do Qwen 3 Omni concentram-se em torno da geração de fala – seu raciocínio é competitivo, mas os usuários ficam desanimados com o som. As perdas do GPT Realtime 1.5 são dominadas por falhas de compreensão de áudio (51%), consistente com seu comportamento de troca de idioma em prompts desafiadores. As falhas do Grok Voice são mais equilibradas em todos os três eixos, indicando nenhuma fraqueza dominante, mas também nenhuma força particular.
O que vem a seguir
A tabela de classificação atual cobre a interação por turnos – você fala, o modelo responde, repita. Mas as conversas de voz reais não funcionam dessa maneira. As pessoas interrompem, mudam de direção no meio da frase e conversam umas com as outras.
Scale diz que a avaliação Full Duplex – projetada para capturar essas dinâmicas em tempo real por meio da preferência humana, em vez de cenários com script ou métricas automatizadas – chegará ao Showdown a seguir. Nenhum benchmark existente captura a interação full-duplex por meio de dados orgânicos de preferência humana.
A tabela de classificação está ao vivo em scale.com/showdown. Uma lista de espera pública para ingressar no ChatLab e votar em comparações está aberta hoje, com os usuários recebendo acesso gratuito a modelos de voz de fronteira, incluindo GPT-4o, Gemini e Grok, em troca de votos de preferência ocasionais.













