Início Tecnologia Mistral lança um novo modelo de código aberto para geração de fala

Mistral lança um novo modelo de código aberto para geração de fala

26
0

A empresa francesa de IA Mistral lançou um novo modelo de conversão de texto em fala de código aberto na quinta-feira que pode ser usado por assistentes de IA de voz ou em casos de uso corporativo, como suporte ao cliente. O modelo, que permite às empresas criar agentes de voz para vendas e envolvimento do cliente, coloca a Mistral em concorrência direta com empresas como ElevenLabs, Deepgram e OpenAI.

O novo modelo, denominado Voxtral TTS, oferece suporte a nove idiomas, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe.

“Nossos clientes têm solicitado um modelo de fala. Por isso, construímos um modelo de fala de tamanho pequeno que pode caber em um smartwatch, um smartphone, um laptop ou outros dispositivos de ponta. O custo é uma fração de qualquer outro no mercado, mas oferece desempenho de última geração”, disse Pierre Stock, vice-presidente de operações científicas da Mistral AI, ao TechCrunch durante uma entrevista por telefone.

Créditos da imagem: Mistral

Mistral disse que o novo modelo pode adaptar uma voz personalizada com uma amostra de menos de cinco segundos e também capturar características como sotaques sutis, inflexões, entonações e irregularidades no fluxo da fala. O modelo, baseado Ministério 3Bpode alternar facilmente entre idiomas sem perder as características da voz, o que é útil para casos de uso como dublagem ou tradução em tempo real. Stock disse que a empresa queria que o modelo soasse humano e não robótico.

O modelo foi construído para desempenho em tempo real, segundo a empresa. Ele tem um tempo para o primeiro áudio (TTFA) – uma medida de quando o modelo começa a ‘falar’ após receber a entrada – de 90ms para uma amostra de 10 segundos de 500 caracteres. O modelo também possui um fator de tempo real (RTF) de 6x, o que significa que pode renderizar um clipe de 10 segundos em aproximadamente 1,6 segundos.

Créditos da imagem: Mistral AI

No início deste ano, a Mistral lançou um par de modelos de transcriçãoum para processamento em lote grande e outro para casos de uso em tempo real com baixa latência. Com o novo modelo de voz, a empresa provavelmente pretende fornecer um conjunto completo de produtos de voz às empresas.

“Planejamos ter uma plataforma ponta a ponta que possa lidar com fluxos multimodais de entrada, incluindo áudio, texto, imagem e saída também. O principal benefício disso é que você obtém muito mais informações com um sistema de agente ponta a ponta que suporta áudio como entrada ou saída”, disse Stock.

Evento Techcrunch

São Francisco, Califórnia
|
13 a 15 de outubro de 2026

O posicionamento da Mistral é que seu código aberto e personalização ajudarão as empresas a adotar seus modelos de voz em detrimento dos concorrentes, pois podem ajustá-los da maneira que desejarem.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui