Sobre nós

Somos o grupo de pesquisa em Linguística Computacional, Corpus e Humanidades Digitais, situado no Departamento de Letras da PUC-Rio.

E somos também um pólo da Linguateca.

Criado em 2015, o ComCorHd tem como interesses principais (i) o desenvolvimento de recursos linguísticos para o processamento automático da linguagem (PLN), com ênfase na língua portuguesa e (ii) a utilização desses recursos para diversos fins, como a extração de informação em grandes corpora, descrição do português, leitura distante (distant reading) e Humanidades Digitais.

Do ponto de vista linguístico, o trabalho desenvolvido dialoga com uma visão não-representacionista da linguagem (Wittgenstein, 1953), e toma como metodologia a exploração de grandes corpora. Do ponto de vista computacional, dialoga com abordagens estatísticas e de aprendizado de máquina (machine learning) e com abordagens baseadas em regras.

O trabalho que desenvolvemos é multidisciplinar (veja Projetos de pesquisa). Desde o seu surgimento, o grupo colabora de forma intensa com a Linguateca. Assim, desde o fim de 2019, somos formalmente uma parte brasileira desta iniciativa — distribuída — que, desde o ano 2000, se dedica à criação e à disponibilização de recursos para o processamento automático de textos em português.