Bastidores linguísticos e computacionais da construção de um dataset linguístico

and
Publicado em Construção de datasets para o PLN de língua portuguesa

DE SOUZA, Elvis; FREITAS, Cláudia. “Bastidores linguísticos e computacionais da construção de um dataset linguístico” (Relatório de pesquisa). Departamento de Letras, PUC-Rio. 2020. Disponível em: http://comcorhd.letras.puc-rio.br/relatorio-anual-2019-2020-do-projeto-construcao-de-datasets-para-o-pln-de-lingua-portuguesa/

Relatório anual (2018-2019) do projeto “Construção de datasets para o PLN de língua portuguesa”

and
Publicado em Construção de datasets para o PLN de língua portuguesa

DE SOUZA, Elvis; FREITAS, Cláudia. “Relatório anual (2018-2019) do projeto ‘Construção de datasets para o PLN de língua portuguesa’” (Relatório de pesquisa). Departamento de Letras, PUC-Rio. 2019. Disponível em: http://comcorhd.letras.puc-rio.br/relatorio-anual-2018-2019-do-projeto-construcao-de-datasets-para-o-pln-de-lingua-portuguesa/

Documentação relativa à tokenização e à sentenciação do corpus Petrolês

, , , and
Publicado em BIG Oil - Ciência de Dados para a indústria de Óleo & Gás

Aline Silveira, Tatiana Cavalcanti, Elvis de Souza, Wograine Evelyn, Cláudia Freitas. 2020. Documentação relativa à tokenização e à sentenciação do corpus Petrolês. Disponível em: http://comcorhd.letras.puc-rio.br/documentacao-do-petroles/. Acesso em: 14/07/2020.

Do PDF ao TXT: Desafios na extração de informação em textos técnico-científicos

, , and
Publicado em BIG Oil - Ciência de Dados para a indústria de Óleo & Gás

SILVEIRA, Aline; DE SOUZA, Elvis; CAVALCANTI, Tatiana; FREITAS, Cláudia. Do PDF ao TXT: Desafios na extração de informação em textos técnico-científicos. In: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILic 2019). TILic 2019, Salvador, BA, Brazil, Outubro, 15-18, 2019.

ET: uma Estação de Trabalho para busca, edição e avaliação de corpora anotados

and
Publicado em Construção de datasets para o PLN de língua portuguesa

Interrogatório – Ambiente de busca e edição de corpora anotados

Source-code: https://github.com/alvelvis/Interrogat-rio


Julgamento – Ambiente de avaliação de corpora anotados

Source-code: https://github.com/alvelvis/Julgamento


Publicações

EMNLP 2021 — ET: A Workstation for Querying, Editing and Evaluating Annotated Corpora

Como citar

De Souza, Elvis; Freitas, Cláudia. ET: A Workstation for Querying, Editing and Evaluating Annotated Corpora. In: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 35–41. August 1–6, 2021.

@inproceedings{de-souza-freitas-2021-et,
    title = "{ET}: A Workstation for Querying, Editing and Evaluating Annotated Corpora",
    author = "de Souza, Elvis  and
      Freitas, Cl{\'a}udia",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-demo.5",
    pages = "35--41",
    abstract = "In this paper we explore the functionalities of ET, a suite designed to support linguistic research and natural language processing tasks using corpora annotated in the CoNLL-U format. These goals are achieved by two integrated environments {--} Interrogat{\'o}rio, an environment for querying and editing annotated corpora, and Julgamento, an environment for assessing their quality. ET is open-source, built on different Python Web technologies and has Web demonstrations available on-line. ET has been intensively used in our research group for over two years, being the chosen framework for several linguistic and NLP-related studies conducted by its researchers.",
}