Uma start-up de Montreal, Lyrebird, está desenvolvendo um sistema artificialmente inteligente que aprende a imitar a voz de qualquer pessoa, analisando gravações de fala e as transcrições de texto correspondentes, bem como identificando as relações entre elas.
Apresentada no final de abril, a síntese de fala da Lyrebird pode gerar milhares de frases por segundo, significativamente mais rápido do que todos os métodos existentes. O programa pode também imitar praticamente qualquer voz, um avanço que levanta questões éticas e práticas sobre como a tecnologia pode vir a ser usada.
Mesmo as vozes informatizadas mais naturais, como a Siri da Apple ou a Alexa da Amazon, ainda soam artificiais. A habilidade de gerar um discurso natural tem sido por muito tempo um dos grandes desafios dos programas que transformam textos em palavras faladas.
Os assistentes pessoais como a Cortana da Microsoft usam um software de conversão de texto para voz utilizando um sistema que trabalha juntando palavras e frases de arquivos pré-gravados. Mudar para uma voz diferente requer um novo arquivo de áudio contendo todas as palavras possíveis que o dispositivo pode precisar para se comunicar com os usuários.
O que existe de revolucionário no sistema da Lyrebird é que ele pode aprender a pronúncia das pessoas, os fonemas e palavras em qualquer voz, ouvindo horas de áudio falado. Partindo disso, ele consegue extrapolar para gerar frases completamente novas e até mesmo adicionar diferentes entonações e emoções.
A chave para a abordagem são redes neurais artificiais, que usam algoritmos projetados para fazer com que o sistema funcione como um cérebro humano. Tais sistemas dependem de técnicas de aprendizado profundo (deep learning) para transformar pedaços de som em fala.
Depois que o programa aprende a gerar a fala o sistema consegue adaptar o que aprendeu para imitar qualquer voz, bastando apenas de uma amostra de um minuto do discurso de alguém.
“Diferentes vozes compartilham muita informação”, diz o co-fundador do Lyrebird, Alexandre de Brébisson, um estudante de doutorado no Laboratório de Algoritmos de Aprendizagem do Instituto de Montreal da Universidade de Montreal.
“Depois de aprender várias vozes de oradores diferentes, aprender a voz de um orador específico é muito mais rápido. É por isso que não precisamos de tantos dados para aprender uma voz completamente nova. Mais dados ainda vão ajudar, mas um minuto é suficiente para capturar o ‘DNA’ da voz”, diz Brébisson.
Lyrebird mostrou o potencial do seu sistema usando vozes de figuras políticas dos EUA, como Donald Trump, Barack Obama e Hillary Clinton, em uma conversa sintetizada.
A empresa planeja vender o sistema a desenvolvedores para uso em uma ampla gama de aplicações, incluindo assistentes pessoais de AI, narração de livros de áudio e síntese de fala para pessoas com deficiência.
Fonte: Scientific American