Projeto NURC Digital, TEITOK e inovação em disponibilização de dados linguísticos no Brasil.

As pesquisas em linguísticas de corpus ganharam bastante espaço nos últimos anos, mas por um longo período foi muito difícil acessar uma grande quantidade de dados linguísticos, pois não havia ferramentas para processá-los adequadamente. o Projeto NURC, o primeiro e um dos mais importantes projetos de documentação linguística do Brasil, coletou, ao longo de vários anos, uma grande quantidade de dados de fala, mas o acesso a eles era muito difícil, visto que suas gravações eram em fitas magnéticas de rolo, cujos reprodutores eram equipamentos caros e pouco comuns.

Diversas pesquisas foram feitas utilizando os dados do projeto NURC, mas alguns dos resultados poderiam ser melhor avaliados se não fossem baseados exclusivamente nos dados transcritos e impressos, uma vez que, naquela altura, não por opção dos pesquisadores, os registros de áudio eram em geral ignorados. As gravações eram de difícil acesso. Além disso, as transcrições eram disponibilizadas em formato impresso, o que fazia com que o processo de buscar fenômenos linguísticos particulares fosse muito demorado e difícil.

O projeto NURC Digital surgiu com a proposta de digitalizar todos os dados presentes no corpus do projeto NURC, tanto as transcrições como gravações, tornando muito mais viável o acesso a tal através da internet e disponibilizando uma ferramenta especial para pesquisas dentro do corpus. o TEITOK é uma ferramenta de busca, disponível no Portal NURC Digital, através da qual você pode pesquisar por palavras em condições específicas que traz como resultado todas as ocorrências existentes no corpus que atendam às suas especificações.

Com o TEITOK, e com os dados do projeto NURC Digital disponíveis para download, creio que se tornou muito mais fácil realizar pesquisas por fenômenos linguísticos particulares. Poder comparar as transcrições com suas gravações originais trará segurança às afirmações que podemos fazer em decorrência de nossas análises. Afinal, com essa ferramenta, não será mais necessário apenas acreditar no julgamento daquele que transcreveu a gravação, mas será possível também ouvir os dados transcritos, alinhados com a transcrição, e tirar suas próprias conclusões.

Trara-se de um projeto cujo foco foi apresentar, para o cenário da linguística de corpus, ferramentas para processar dados linguísticos de maneira eficiente e em maior escala, especificamente para um corpus histórico, o do Projeto NURC, mas potencialmente para corpora semelhantes. Os resultados do projeto tornou possível realizar buscas da forma que mais de adequar à sua pesquisa, acelerando-a, e ter acesso aos dados em qualquer ambiente com um computador ou celular.

Marvin Lucena Melo

Fonética e Fonologia / Maceió, AL

Aluno de graduação em Letras – Português pela Universidade Federal de Alagoas (UFAL), bolsista do projeto NURC Digital do programa PIBITI.

00 comentário em “Projeto NURC Digital, TEITOK e inovação em disponibilização de dados linguísticos no Brasil.”

Ainda não há nenhum comentário para esta publicação.

Deixe um comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

AL