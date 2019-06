Investigadores ensinaram uma rede neuronal a mapear a impressão digital de diferentes vozes.

Os engenheiros do Google estão a trabalhar numa forma de pôr um utilizador a falar outra língua em instantes: um tradutor de áudio que converte o discurso de voz de alguém para outra língua, mantendo o tom, ritmo e timbre da voz original. Trata-se do projecto Translatotron.

Os primeiros resultados, testados com pessoas a falar em inglês e espanhol, de acordo com o jornal Público, foram partilhados este mês no blogue de inteligência artificial do Google. O foco, explicam os investigadores envolvidos, é “reter as características de voz do locutor original”.

Embora os exemplos de traduções iniciais ainda não soem como vozes idênticas, e continuem a parecer vindas de uma máquina em vez de uma pessoa, o tom mantém-se entre traduções.

A equipa do Google explica que o sistema depende da análise do espectrograma da voz do locutor original, que é uma espécie de “impressão digital da voz” que mostra uma representação visual da frequência do som produzido. Depois, o Translatotron usa uma rede neuronal (sistemas de algoritmos que simulam o funcionamento do cérebro humano) para recriar um espectrograma semelhante noutra língua.

Outra novidade é que o Translatotron converte o áudio original directamente em áudio traduzido, sem quaisquer passos intermédios.

Actualmente, o sistema de tradução do Google incorpora três fases: reconhecimento de discurso (que transcreve o áudio em texto), tradução automática (que traduz o texto numa língua para outra), e sintetização de voz (que usa o texto traduzido para recriar o áudio).

“O nosso sistema evita dividir a tarefa em etapas distintas”, explicam os engenheiros Ye Jia and Ron Weiss – dois dos autores do trabalho – num comunicado sobre os primeiros resultados. “Isto simplifica a retenção da voz do locutor original após a tradução e permite um melhor tratamento de palavras que não precisam ser traduzidas (por exemplo, nomes próprios e apelidos) ”.

O novo sistema de tradução do Google ainda está numa fase muito inicial. Mas os investigadores dizem que o projecto mostra que “é possível reter a fonte da voz original no discurso traduzido”.

No futuro, a equipa quer focar-se mais na retenção da entoação e ritmo da voz original na tradução para criar traduções áudio “mais naturais e menos estranhas”.

A ascensão de vídeos e vozes fabricadas

Este mês, a equipa de engenharia da Samsung também publicou resultados preliminares no ArXiv sobre conteúdo criado através de rede neuronais.

Tal como o sistema do Google, o da Samsung baseia-se em redes neuronais que criam as suas simulações ao mapear o conteúdo original (neste caso, imagens).

Texto originalmente publicado na edição impressa do expresso das ilhas nº 913 de 29 de Maio de 2019.