PyannoteAI atrai US$ 9 milhões para acelerar inovação em reconhecimento de fala

A PyannoteAI, startup francesa especializada em inteligência artificial para processamento de voz, recebeu um investimento de US$ 9 milhões liderado pela Crane Venture Partners e Serena.

A PyannoteAI, startup francesa especializada em inteligência artificial para processamento de voz, anunciou um investimento de US$ 9 milhões para aprimorar sua tecnologia.

A rodada de financiamento foi liderada pela Crane Venture Partners e Serena, com participação de Alexis Conneau, CEO da WaveForms Inc., e Julien Chaumond, CTO da Hugging Face Inc.

Fundada em 2024, a PyannoteAI desenvolveu um toolkit open-source que facilita a transcrição de discursos em múltiplos idiomas, incluindo a capacidade de realizar diarização de falantes.

Esse processo permite atribuir cada segmento de áudio ao respectivo falante, um desafio comum para modelos de IA.

No núcleo de sua tecnologia, o toolkit utiliza redes neurais desenvolvidas internamente e pipelines que auxiliam no preparo dos dados de áudio antes do processamento.

Empresas podem personalizar os componentes do toolkit com seus próprios conjuntos de dados, aprimorando a performance de acordo com suas necessidades.

A versão open-source da PyannoteAI tem ganhado destaque, sendo baixada mais de 45 milhões de vezes por mês e contando com uma comunidade de mais de 100.000 desenvolvedores.

A empresa monetiza oferecendo uma versão paga do toolkit, que apresenta capacidades mais avançadas.

Segundo a PyannoteAI, a oferta comercial é duas vezes mais rápida que a edição open-source e proporciona um aumento de 20% na precisão.

Isso permite distinguir falantes com maior confiabilidade, mesmo em situações onde várias pessoas falam simultaneamente.

Os clientes podem fazer upload de arquivos com até 24 horas de áudio.

A plataforma identifica automaticamente falantes recorrentes em diferentes arquivos, reduzindo a necessidade de edição manual das transcrições.

Para lidar com possíveis imprecisões, o software gera uma pontuação de confiança para cada segmento transcrito.

Pontuações mais baixas indicam maior risco de erro, permitindo que os usuários identifiquem rapidamente possíveis falhas sem a necessidade de revisar todo o material.

As organizações podem acessar a plataforma da PyannoteAI por meio de uma API ou implantá-la em sua própria infraestrutura, seja em nuvens públicas ou em servidores dedicados.

Vincent Molina, cofundador e CEO da PyannoteAI, declarou: “Estamos levando inteligência de voz em nível empresarial para negócios que dependem de dados de áudio. Nosso objetivo é tornar a IA consciente de falantes tão comum e acessível quanto a própria fala.”

Com o novo investimento, a empresa pretende focar em iniciativas de desenvolvimento de produtos.

Entre as futuras funcionalidades, está a capacidade de dividir um arquivo de áudio em múltiplos arquivos, cada um contendo apenas um único falante.

Além disso, a PyannoteAI planeja expandir a compatibilidade de seus modelos de IA para uma gama maior de dispositivos.