Cláudia Freitas
Sou linguista computacional, e me interesso principalmente pela criação de datasets/corpora anotados, por formas de avaliar sua qualidade, e por maneiras eficientes de codificar informação linguística nos dados. Do lado das aplicações, gosto de encontrar e extrair informação em grandes conjuntos de texto.
Após a conclusão do doutorado em 2007, na PUC-Rio, fui ser pesquisadora da Linguateca (2007-2012), um centro que, desde 2000, se dedica ao processamento computacional da língua portuguesa.
Em 2012, fui aprovada no concurso para professora do PPGEL/PUC-Rio, onde fiquei por mais de uma década como professora e pesquisadora.
Escrevi o livro Linguística Computacional (Ed. Parábola), publicado em 2022. Uma pequena parte do livro, Material Complementar, está livremente acessível pela página da editora: Inteligência Artificial, o Teste de Turing e outros Testes ; Ontologias e Realidade ; História do PLN ; PLN em Português: Entrevista com Diana Santos (Linguateca) e Maria das Graças Volpe Nunes (NILC/USP).
Em 2020, me juntei à iniciativa Brasileiras em PLN.
Em 2023, fui para o C4-AI/ICMC/USP.
Liderei ou participei da criação dos seguintes recursos /projetos/ avaliações conjuntas:
Bosque - versão "original" da Linguateca, parte do projeto Floresta Sintá(c)tica.
HAREM - Avaliação e reconhecimento de entidades mencionadas; avaliaçao conjunta organizada pela Linguateca.
ReReLEM - reconhecimento de relações entre entidades mencionadas, subtarefa do HAREM.
Págico - recuperação de informação na wikipédia de língua portuguesa; avaliação conjunta organizada pela Linguateca.
ReLi - corpus de resenhas de livros, com anotação de polaridade.
Bosque-UD - versão do corpus Bosque anotado conforme a abordagem Universal Dependencies.
PetroGold - treebank padrão ouro/dataset do domínio do petróleo conforme a abordagem Universal Dependencies.
PetroNer - corpus/dataset com anotação de entidades mencionadas da engenharia de petróleo.
Projetos de anotação semântica nos corpora do projeto AC/DC (Linguateca), como QuemDisse? -- anotação de discurso relatado (reported speech); Esqueleto -- anotação do corpo humano; Predicação humana -- anotação de qualificações e atributos associados a pessoas.
Porttinari-base Propbank - um propbank para a língua portuguesa, parte do projeto POeTiSA (C4IA/ICMC-USP).
OpenWordNet-PT e PAPEL, ambos recursos lexicais para o processamento computacional da língua portuguesa.
Também me interesso por ferramentas para anotação e visualização de corpora anotados/datasets: ajudei a construir o Milhafre, ferramenta de busca em treebanks sintagmáticos do projeto Floresta Sintá(c)tica, e a ET, Estação de Trabalho para busca, edição e avaliação de corpora em formato conll.u, com anotações de dependências sintáticas.
Lattes Google Scholar ACL Anthology Research Gate Publicações pela Linguateca ORCID: 0000-0001-6807-8558 email: claudiafreitas arroba usp ponto br
Publicações recentes
2024
Santos, D.; Freitas, C. "Avaliação Conjunta em Português". In: Caseli, H.; Volpe Nunes, M.G.V. (Eds). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. 3a edição. https://brasileiraspln.com/livro-pln/3a-edicao/parte-dados-avaliacao/cap-avaliacao-conjunta/cap-avaliacao-conjunta.html
Freitas, C.; Pardo, T. "PropBank e anotação de papéis semânticos para a língua portuguesa: O que há de novo?". In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 118-128. DOI: https://doi.org/10.5753/stil.2024.245377.
2023
Freitas, C., De Souza, E., Castro, M. C., Cavalcanti, T., Ferreira da Silva, P., & Corrêa Cordeiro, F. "Recursos linguísticos para o PLN específico de domínio: o Petrolês." Linguamática, 15(2), 51-68. https://doi.org/10.21814/lm.15.2.412
Freitas, C. "Dataset e corpus". In: Caseli, H.; Volpe Nunes, M.G.V. (Eds). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. 1a edição. https://brasileiraspln.com/livro-pln/1a-edicao/parte7/cap14/cap14.html
Paes, A. ; Freitas, C. "ChatGPT, MariTalk e outros agentes de conversação". In: Caseli, H.; Volpe Nunes, M.G.V. (Eds). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023.1a edição. https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap20/cap20.html
Freitas, C. "E o significado?". In: Caseli, H.; Volpe Nunes, M.G.V. (Eds). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. 1a edição. https://brasileiraspln.com/livro-pln/1a-edicao/parte5/cap8/cap8.html
de Souza, E.; Freitas, C. "Explorando variações no tagset e na anotação Universal Dependencies (UD) para Português: Possibilidades e resultados com base no treebank PetroGold". In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 125-134. DOI: https://doi.org/10.5753/stil.2023.233980 .
Freitas, C., de Souza, E. "A study on methods for revising dependency treebanks: in search of gold". Lang Resources & Evaluation (2023). https://doi.org/10.1007/s10579-023-09653-4
Freitas, C.. "Anotação e Mineração de Textos nas Humanidades". IN: Humanidades digitais na América Latina: linguagens, metodologias e práticas de análise. Ed. Pontes (2023). (PDF)
Freitas, C., Martins, F. "Bela, recatada e do lar - o que a mineração de textos literários brasileiros nos diz sobre a caracterização de personagens femininas e masculinas". Fórum Linguístico, v. 20 n.3 (2023) (PDF)
Freitas, C., Santos, D. "Gender Depiction in Portuguese". Journal of Computational Literary Studies (https://doi.org/10.48694/jcls.3576)
2022
Caseli, Helena; Freitas, Cláudia; Viola, Roberta. "Processamento de Linguagem Natural". Capítulo referente ao minicurso ministrado no XXXVII Simpósio Brasileiro de Banco de Dados (SBBD 2022), pg 1-28. DOI: https://doi.org/10.5753/sbc.10309.7
Freitas, Cláudia."Ler de longe o quê? Humanidades Digitais e Anotação Linguística". In: Renata Vieira e Ana Paula Banza (Orgs), Jornada de Humanidades Digitais do CIDEHUS. Évora: Imprensa da Universidade de Évora, p. 18-27. ISBN:978-972-778-268-0 DOI:https://doi.org/10.24902/uevora.32
Freitas, Cláudia. "Linguística Computacional". Coleção Linguística para o Ensino Superior. Ed. Parábola. 2022.
Freitas, Cláudia; Martins, Flávia; Biar, Liana. "Um ‘olhar discursivo’ sobre predicação e gênero: aproximações metodológicas entre corpus e discurso". Texto Livre, Belo Horizonte-MG, v. 15, p. e36213, 2022. (PDF)
Higuchi, Suemi; Cláudia Freitas & Diana Santos. "Automatic information extraction: a distant reading of the Brazilian Historical-Biographical Dictionary". In V. Pinheiro, P. Gamallo, R. Amaro, C. Scarton, F. Batista, D. Silva, C. Magro & H. Pinto, Computational processing of the Portuguese language, PROPOR 2022, Springer 2022.
Santos, Diana, Suemi Higuchi & Cláudia Freitas. "Identifying family ties among politicians: Challenges of information extraction evaluation". Second DHandNLP, March 2022. (PDF)
de Souza, Elvis; Freitas, Cláudia. "Polishing the Gold – how much revision do we need in treebanks?". In Proceedings of the Universal Dependencies Brazilian Festival (UDFest-BR), pages 1–11, Fortaleza, Brazil. Association for Computational Linguistics. (PDF)
de Souza, Elvis; Freitas, Cláudia. "Still on arguments and adjuncts: the status of the indirect object and the adverbial adjunct relations in Universal Dependencies for Portuguese". In Proceedings of the Universal Dependencies Brazilian Festival (UDFest-BR), pages 1–10, Fortaleza, Brazil. Association for Computational Linguistics. (PDF)
2021
de SOUZA, Elvis; SILVEIRA, Aline; CAVALCANTI, Tatiana; CASTRO, Maria Clara; FREITAS, Cláudia. "PetroGold – Corpus padrão ouro para o domínio do petróleo". In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 29-38. (PDF)
de Souza, Elvis; Freitas, Cláudia. "ET: A Workstation for Querying, Editing and Evaluating Annotated Corpora". Empirical Methods of Natural Language Processing 2021. ACL Anthology (PDF)
Freitas, Cláudia; de Souza, Elvis. "Sujeito oculto às claras: uma abordagem descritivo-computacional". REVISTA DE ESTUDOS DA LINGUAGEM, v. 29, n. 2, p. 1033-1058, mar. 2021. (PDF)
Freitas, Cláudia; de Souza, Elvis. “Identificação automática de gênero morfológico em personagens literários: comparação entre duas ferramentas” HDRio - 2021.
2020
Hodge, P., Freitas, C., Costa, A. "Representações discursivas da mídia sobre a privatização das telecomunicações". Revista de Administração Pública". (PDF)
Santos, D., Alves, D., Amaro, R., Branco, I., Fialho, O., Freitas, C., et al. "Leitura Distante Em Português: Resumo Do Primeiro Encontro". MATLIT: Materialidades Da Literatura, 8(1), 279-98, 2020. (PDF)
de Araújo, Juliana C. Carvalho; Freitas, Cláudia; Pacheco, Marco Aurélio C.; Forero-Mendoza, Leonardo A.. "An Investigation of Pre-trained Embeddings in Dependency Parsing". PROPOR 2020. Lecture Notes in Computer Science. 1ed.: Springer International Publishing, 2020, v. 12037, p. 281-290. (PDF)
Santos, D., Pires, E., Freitas, C., Fuão, R. S., & Lopes, J. M. "Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona". Linguamática, 12(1), 81-95, 2020. (PDF)
Ramos, B.; Santos, D. Freitas, C. "Looking at Body Expressions to Enrich Emotion Clusters". Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP 2020). Alemanha: CEUR Workshop Proceedings (CEUR-WS.org), 2020. p. 57-62. (PDF)
2019
Costa, B.; Freitas, C. . Um léxico de verbos do dizer para tradutores - e considerações sobre a classificação dos verbos de elocução. Calidoscópio, v. 17, p. 494-515, 2019. (PDF)
Higuchi, S.; Santos, D. Freitas, C.; Rademaker, A. "Distant reading Brazilian history". In: 4th Conference of The Association Digital Humanities in the Nordic Countries, 2019, Copenhagen. Proceedings of 4th Conference of The Association Digital Humanities in the Nordic Countries. CEUR Workshop Proceedings, 2019. p. 190-200. (PDF)
Ramos, B.; Freitas, C. ""Sentimento de quê?": uma lista de sentimentos para a Análise de Sentimentos". In: STIL 2019 - XII Symposium in Information and Human Language Technology, 2019, Salvador. XII Symposium in Information and Human Language Technology and Collocates Events - Proceedings, 2019. p. 38-47. (PDF)
Freitas, C.; de Souza, E.; Rocha, L.. "Quantificando (e qualificando) o sujeito oculto em português". In: VI Jornada de Descrição do Português, 2019, Salvador. XII Symposium in Information and Human Language Technology and Collocates Events - Proceedings, 2019. p. 288-293. (PDF)
de Souza, E.; Freitas, C. "(Re)começando a discutir as locuções verbais". In: VI Jornada de Descrição do Português, 2019, Salvador. XII Symposium in Information and Human Language Technology and Collocates Events - Proceedings, 2019. p. 279-287. (PDF)
2018
Cláudia Freitas, Trugo L.F., Chalub F., Paulino-Passos G., Rademaker A. (2018) Tagsets and Datasets: Some Experiments Based on Portuguese Language. In: Villavicencio A. et al. (eds) Computational Processing of the Portuguese Language. PROPOR 2018. Lecture Notes in Computer Science, vol 11122. Springer, Cham, pp 459-469 (PDF) (Best paper award Propor 2018)
Higuchi, S.; Freitas, Cláudia; Cuconato, B., Rademaker, A. . Text Mining for History: First Steps on Building a Large Dataset. In: Language Resources and Evaluation Conference (2018), 2018, Miyazaki. Proceedings of 11th edition of the Language Resources and Evaluation Conference, 2018. p. 3754-3760. (PDF)
Santos, D.; Freitas, C.; Lopes, J. M. . "Comparando a literatura lusófona com outras literaturas: recursos para leitura a distância em português". I Congresso Internacional em Humanidades Digitais no Rio de Janeiro (HdRio2018). 2018, pp. 375-383. (PDF)
2017
Cláudia Freitas. "Estudos linguísticos e Humanidades Digitais: corpus e descorporificação". Gragoatá, vol. 22, n. 44, p.1207-1227. (PDF)
Bianca Freitas Saburi Costa & Cláudia Freitas. "Verbos de Elocução em Português: um estudo descritivo com base em grandes corpora e motivado pela Linguística Computacional". Revista Fórum Linguístico, vol. 14, n. 3, p. 2266-2285, 2017. (PDF)
Alexandre Rademaker, Fabricio Chalub, Livy Real, Cláudia Freitas, Eckhard Bick & Valeria de Paiva. "Universal Dependencies for Portuguese". Proceedings of the Fourth International Conference on Dependency Linguistics (Depling 2017), pages 197-206, Pisa, Italy, September 18-20 2017. (PDF)
Cláudia Freitas & Diana Santos (Eds). Tradução em revista, 22, 1 (jan/jun 2017), 2017, ISSN: 1808-6195. (PDF)
Suemi Higuchi & Cláudia Freitas. "Linguística computacional, humanidades digitais e os desafios na mineração de um dicionário histórico-biográfico". Anais do X Congresso Internacional da Abralin, 2017.
Diana Santos & Cláudia Freitas. "Áreas emergentes e ferramentas especializadas: tradução e tecnologia em revista", Introdução ao volume temático "Tradução e tecnologia", Tradução em revista 22, 1 (jan/jun 2017), 2017, pp. 1-9. (PDF)
Alexandre Rademaker, Fabricio Chalub & Cláudia Freitas. “Two Corpus Based Experiments With Portuguese and English Wordnets.” Proceedings Of the LDK 2017 Workshops: 1st Workshop On the OntoLexoLex Model (OntoLex-2017), Shared Task On Translation Inference Across Dictionaries Challenges for Wordnets, Co-Located with 1st Conference on Language, Data and Knowledge (LDK 2017), 134–45. Galway, Ireland. (PDF)
2016
Cláudia Freitas, Bianca Freitas & Diana Santos. "QUEMDISSE?: Reported speech in Portuguese". In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) (PDF)
de Paiva, Valeria ; Real, Livy; Oliveira, Hugo; Rademaker, Alexandre; Freitas, Cláudia; Simões, Alberto. 'An overview of Portuguese WordNets". In: Global Wordnet Conference 2016, 2016, Bucharest, Romenia. Proceedings of the Eighth Global WordNet Conference, 2016. p. 74-81.
2015
Cláudia Freitas, Diana Santos, Cristina Mota, Heidi Jansen & Bruno Carriço. "O léxico do corpo e anotação de sentidos em grandes corpora: o projeto Esqueleto". Revista de Estudos da Linguagem, v. 23, p. 641-680, 2015. (PDF)
Diana Santos, Rui Pedro Ribeiro Marques, Cláudia Freitas, Cristina Mota & Alberto Simões. “Comparando anotações linguísticas na Gramateca: filosofia, ferramentas e exemplos”. Domínios de Lingu@gem, v. 9, p. 11-26, 2015. (PDF)
Cláudia Freitas, Livy Real, and Alexandre Rademaker. 2015. “Anotação De Corpus Com a OpenWordNet-PT: Um Exercício De Desambiguação.” In Proceedings Of the 10th Brazilian Symposium In Information and Human Language Technology, edited by Cláudia Freitas and Alexandre Rademaker, 51–55. Natal, Brazil. (PDF)
Livy Real, Fabricio Chalub, Valeria de Paiva, Cláudia Freitas, and Alexandre Rademaker. 2015. “Seeing Is Correcting: Curating Lexical Resources Using Social Interfaces.” In Proceedings Of 53rd Annual Meeting of The Association for Computational Linguistics and The 7th International Joint Conference on Natural Language Processing of Asian Federation of Natural Language Processing - Fourth Workshop on Linked Data in Linguistics: Resources and Applications (LDL 2015). Beijing, China. (PDF)
Hugo Oliveira, Valeria de Paiva, Cláudia Freitas, Alexandre Rademaker, Livy Real & Alberto Simões. "As Wordnets do Português". OSLa - Oslo Studies in Language, v. 7, p. 397-424, 2015 (PDF)
Cláudia Freitas. “Corpus, Linguística Computacional e as Humanidades Digitais”. In: Leite, M. e Gabriel, C. T. (orgs). Linguagem, Discurso, Pesquisa e Educação. Rio de Janeiro, DP et ali, 2015, pp 18-46. (PDF)
Miriam Leite & Cláudia Freitas. “Pesquisa em Educação: perspectivas (qualitativas?) na exploração de grandes corpora”. OSLa-Oslo Studies in Language. Vol 7, n.1, 2015.139-152. (PDF)
2014
Cláudia Freitas, Eduardo Motta, Ruy Luiz Milidiú & Juliana César. "Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus". In Sandra Aluísio & Stella E. O. Tagnin (eds.), New Language Technologies and Linguistic Research: A Two-Way Road. Cambridge Scholars Publishing, 2014, pp. 128-146. (PDF)
Cláudia Freitas, Valeria de Paiva, Alexandre Rademaker, Gerard de Melo, Livy Real & Anne de Araujo Correia da Silva. "Extending a Lexicon of Portuguese Nominalizations With Data From Corpora". In Jorge Baptista, Nuno Mamede, Sara Candeias, Ivandré Paraboni, Thiago A.S. Pardo & Maria das Graças Volpe Nunes (eds.), International Conference on Computational Processing of Portuguese (PROPOR'2014) (São Carlos, 6 de outubro de 2014), Springer. (PDF)
Valéria de Paiva, Cláudia Freitas, Livy Real & Alexandre Rademaker. "Improving the Verb Lexicon of OpenWordnet-PT". In Proceedings of Workshop On Tools and Resources For Automatically Processing Portuguese and Spanish (ToRPorEsp). São Carlos, 9 de outubro de 2014. (PDF)
Palestras convidadas e participação em mesas
"Nós, de Letras, IA e a Língua Portuguesa" . Aula Magna dos Programas de Pós-Graduação em Estudos Linguísticos e Letras da UNESP. Abril, 2024.
"Inteligência Artificial: desafios e oportunidades para a língua portuguesa". Painel no 1o Fórum Lusófono de Governação da Internet. NIC.Br. Setembro, 2023. (gravação)
"Anotação e mineração de textos nas Humanidades". 1o Simpósio de Humanidades Digitais da Uerj. UERJ, 17/8/2022.
"Atribuindo sentido aos dados: anotação, mineração e Humanidades Digitais". Ciências sociais computacionais, ciência de dados e Humanidades Digitais. IFCS- UFRJ, 29/6/2022.
"Humanidades Digitais: Laços familiares de políticos ao longo do Dicionário Histórico-Biográfico Brasileiro" palestra convidada no âmbito do evento “Linguística, História e Computação: dos acervos ao conhecimento e vice-versa”, organizado pelo Arquivo Público do Estado do RS (APERS) e o Programa de Pós-Graduação em Letras da Universidade Federal do Rio Grande do Sul (UFRGS). 2022. (Youtube)
"Ver de longe o quê?" Conferência de Encerramento da Jornada de Humanidades Digitais do CIDEHUS. Universidade de Évora. 2021.
"Linguagem, linguística e computadores". Conferência de Encerramento do XIX Simpósio de Letras da UEMA. 2020.
"Ver de longe, ver de perto: Humanidades Digitais, Linguística Computacional e aproximações com os Estudos Literários". NoviembreHD. Asociación Argentina de Humanidades Digitales. 2020.
"Humanidades Digitais e PLN". Jornada de Seminários em Humanidades Digitais. UFRRJ. 2019.
"O digital nas humanidades: desafios na formação profissional". I Congresso Internacional em Humanidades Digitais (HDRIo 2018). 2018.
"Instabilidade da Linguagem e Linguística Computacional". IBM Colloquium 2017 - Avanços da Inteligência Artificial no Brasil. 2017.