Projetos de pesquisa em andamento

Linguística Computacional para as Humanidades (Capes/PRINT)

O volume de dados textuais disponíveis cresce exponencialmente. No entanto, apenas recentemente os recursos e ferramentas desenvolvidos para o tratamento automático deste vasto material voltaram-se para a grande área das Humanidades, que tem como um de seus objetos privilegiados, justamente, a linguagem verbal – obras ficcionais, documentais, entrevistas, relatórios, notícias, dicionários e enciclopédias, entre outros. Neste contexto, este projeto se apresenta como uma oportunidade para o desenvolvimento e aplicação de recursos e métodos da Linguística Computacional no âmbito das Humanidades. Espera-se, como resultado, o desenvolvimento de uma infraestrutura capaz de contribuir com novas maneiras (ou perspectivas) pelas quais pesquisadores e profissionais realizam pesquisas em grandes acervos de textos.

Universidade parceira: Universidade de Oslo / Prof. Diana Santos


Construção de datasets para o PLN de língua portuguesa

O projeto tem como principais objetivos a revisão do corpus Bosque segundo o modelo de anotação do projeto Universal Dependencies; o desenvolvimento de uma metodologia relativa à otimização do processo de revisão da anotação linguística; e a ampliação do material em UD para a língua portuguesa. Como pano de fundo, buscamos viabilizar estudos sobre datasets e tagsets em língua portuguesa.


Recursos para Leitura Distante em Português

Este projeto, por um lado, é um desdobramento do projeto Construção de Datasets para PLN e, por outro, uma articulação com o projeto “Distant Reading for European Literary History”.

Parceria com a Linguateca


BIG Oil

BIG Oil – Ciência de Dados para a indústria de Óleo & Gás. Projeto em parceria com o ICA (Inteligência Computacional Aplicada), laboratório do Departamento de Engenharia Elétrica da PUC-Rio, com financiamento da ANP. O projeto prevê a criação de um grande corpus do domínio O&G para a a extração de informação semântica relevante.

Projetos de pesquisa associados


Gramateca

Projeto em colaboração com a Linguateca, que envolve a construção de gramáticas da língua portuguesa com base em grandes corpora.

Página do projeto na Linguateca


Distant Reading for European Literary History

Link externo