Segundo os especialistas, as chamadas “línguas mortas” são traduzidas por um método de comparação, os pesquisadores linguísticos correlacionam o idioma antigo a alguma variação contemporânea usando algoritmos automatizados que buscam similaridades entre ambos.
O estudo, liderado pela professora Regina Barzilay, baseia-se em percepções da linguística histórica, como o facto de as línguas só evoluírem de maneiras previsíveis.
Um determinado idioma raramente adiciona ou exclui totalmente um som. Em vez disso, é provável que ocorram substituições de som: a letra “p” pode mudar para um “b” em algumas palavras ao longo do tempo, por exemplo.
Juntamente com o seu aluno de doutoramento Jiaming Luo, Barzilay desenvolveu um algoritmo, à base de machine learning, que regista padrões de mudança de linguagem. O sistema pode, desta forma, segmentar palavras num idioma antigo e mapeá-las num idioma relacionado.
Segundo o comunicado do MIT, este projeto baseia-se num artigo, escrito no ano passado, que descrevia um programa, criado pelos investigadores, que decifrou as línguas mortas do ugarítico e do Linear B.
Muitos idiomas são considerados perdidos por não haver conhecimento suficiente sobre a sua gramática, vocabulário ou sintaxe. Este novo algoritmo consegue, até, avaliar a proximidade entre as duas línguas e, quando é testado em idiomas conhecidos, o sistema pode também identificar famílias de idiomas.
No futuro, a equipa quer expandir o seu trabalho para identificar o significado semântico das palavras, mesmo que ainda não sejam legíveis. Em última análise, os investigadores esperam ser capazes de “ressuscitar” línguas perdidas usando apenas alguns milhares de palavras.