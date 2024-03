​O Instituto Internacional da Língua Portuguesa (IILP) e a Media Comunicações S.A., proprietária do Expresso das Ilhas (EI), assinaram um protocolo cuja relevância e o caráter inovador são merecedores do destaque que aqui, singelamente, se procura conferir. Por via do referido protocolo, o EIcede ao IILP, para efeitos de investigação, pelo próprio ou por terceiros, o acervo digital de todas as edições do jornal já publicadas, em número bem superior a um milhar.

São centenas de editoriais, notícias, artigos e entrevistas que, deste modo, ao papel informativo que cumpriram no momento da sua publicação (em muitos casos, por força da voracidade noticiosa dos tempos, aí se cumprindo também) juntam agora, independentemente do seu tempo, uma outra finalidade não menos importante que a primeira.

Já neste jornal nos referimos à importância dos bancos de dados e dos corpora para o tratamento automático de textos, o processamento da linguagem natural e, em particular, à importância de que reveste o reforço daqueles que, em língua portuguesa, alimentam recursos computacionais de inteligência artificial generativa, a estruturação de modelos de linguagem, os estudos na área da variação linguística, entre outras possibilidades.

E essa constitui exatamente uma das faculdades que esta cedência configura – a criação de um banco de dados que armazena e viabiliza o acesso a uma ampla variedade de informação e a realização de um igualmente significativo conjunto de operações associadas a diferentes áreas de estudo e de investigação, que constitui, aliás, o único fim para o qual o corpus jornalístico de Cabo Verde (como ficou designado) poderá ser usado.

Isso mesmo se encontra refletido no protocolo que, sem colocar em causa a integridade dos textos (que se encontra assegurada), permite a tokenização do corpus, ou seja, a categorização com base no qual o processamento computacional analisa a linguagem, organizando-a em sequências (strings), em função da unidade de medida que seja determinada para uma determinada pesquisa de informação, seja ao nível da segmentação de palavras, de frases, de pontuação, de frequências, etc. No fundo, a chave pela qual o investigador, com base na ferramenta que selecionar no domínio da linguística computacional ou outro, irá “ler” os textos.

Facilitando e impulsionando esse trabalho de investigação, o EI acordou ainda que o corpus seja disponibilizado na íntegra, isto é, que os textos possam ser visualizados na totalidade e os investigadores possam abri-los nos seus próprios computadores e fazê-lo com a ferramenta que se ajuste ao seu propósito, sem qualquer restrição.

Um grande acervo, portanto, que tanto pode concorrer para o desenvolvimento e aprimoramento de modelos de processamento de linguagem quanto para o melhor conhecimento ou o reconhecimento de padrões de variação.

Sem alongar mais as virtualidades investigativas que o corpus reúne, um dado ainda no protocolo assume clara importância.

O IILP, como instituição com vocação para a promoção da língua portuguesa numa perspetiva multilateral, que resulta da sua organização e das disposições estatutárias, funcionará como o depositário deste acervo, competindo-lhe diligenciar e estabelecer acordos com entidades terceiras com vista à sua disponibilização gratuita a instituições, universidades, consórcios de ciência, centros ou outras entidades ligadas à investigação.

No horizonte, perfila-se, desde já, o interesse da Portulan Clarin - Infraestrutura de Inves­tigação para a Ciência e Tecnologia da Linguagem, um interesse que acompanhou a génese deste projeto que o IILP encetou e que se afigura de grande importância para a valorização do corpus do Expresso das Ilhas.

Enquanto conceituada plataforma de ciência aberta e de gestão de corpora, a Portulan Clarin faculta o acesso a uma abrangente coleção internacional de recursos para a ciência de que beneficiam investigadores, inovadores, empresas, estudantes, profissionais da linguagem e cidadãos em geral interessados nas diversas áreas de estudo para as quais a plataforma se encontra vocacionada.

Esta constitui, por isso, uma forma privilegiada de chegar a um dos principais objetivos do projeto: o de aproximar o corpus, enquanto conjunto de dados e objeto de estudo, de uma comunidade (no contexto da CPLP e internacional) de especialistas em domínios que a própria plataforma assinala, como a ciência, a tecnologia e a promoção da línguagem, a diversidade linguística e outras áreas associadas à linguagem e à cultura.

Com esta iniciativa, o acervo dos EI oferece-se, deste modo, a uma nova comunidade leitora destes textos que por outros foram lidos no tempo, certamente que com um olhar e um propósito diferente, comunidade essa que vem conferir um valor acrescido a este acervo linguísitico e de memória, que certamente também é. Em simultâneo, o corpus jornalístico de Cabo Verde (que, diga-se, é um corpus aberto) acrescentar-se-á, assim, e fortalecerá um vasto conjunto de outros recursos que concorrem para o desenvolvimento tecnológico da língua portuguesa e para os desafios que se lhe colocam na era digital.

Razões, pois, para saudar esta colaboração e o protocolo que a suporta, tanto mais que ele inaugura uma cooperação com estes contornos para ambas as entidades, mas também em termos do acervo que, concretizando-se a colaboração adicional com a infratura assinalada, passará a estar, a par de outros noutras áreas, à disposição dos diferentes públicos já assinalados.

É, por isso, com propriedade que igualmente o podemos considerar como inovador, tanto mais que, no contexto das comunidades dos países de língua portuguesa, será o primeiro acervo neste domínio, com estas caracterísiticas e esta dimensão, a ser disponibilizado desta forma.

Por aí passa, também, a visão deste projeto e desta colaboração: que ela abra um caminho que se fará na medida em que outras colaborações com estes contornos se lhe sigam. O importante é que o caminho aí está e, adaptando o poeta António Machado, o caminho faz-se caminhando.

Texto originalmente publicado na edição impressa do Expresso das Ilhas nº 1163 de 13 de Março de 2024.