(2024 - 2026) Mestrado em Ciência da Computação
Programa de Pós-graduação em Ciência da Computação (PPGCC) da UFSCar
(2017 - 2023) Bacharelado em Engenhaira de Computação
Universidade Federal de São Carlos
Título do projeto: Automatic identification of bias in Large Language Models
Nível: Mestrado
Resumo: Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, from legal reasoning to clinical decision support. As these models become increasingly integrated into real-world applications, concerns about their reliability, fairness, and ethical implications have emerged. Studies have shown that LLMs can produce biased outputs, reinforcing harmful stereotypes and discriminating against marginalized groups. This work proposes a systematic and scalable framework for evaluating and ranking LLMs based on stereotype generation in Brazilian Portuguese. The framework combines template-based sentence generation, human annotation, and supervised classification into a unified pipeline. A set of 164 sentence templates, covering gender, race, and their intersections, was used to elicit completions from 37 LLMs from multiple providers. The resulting sentences were annotated by human annotators along two dimensions: alignment with social stereotypes and potential harm. The stereotype alignment labels served as the foundation for training a BERTimbau-based classifier, selected via nested cross-validation, which achieved a macro averaged F1 of 0.665. Classifier predictions were then used to construct pairwise match tables, feeding to an Elo rating system, that generated two complementary rankings: a model ranking and a social marker ranking. The results reveal that smaller open-source models tend to generate less stereotyped content than larger commercial ones, and that social markers combining race and gender consistently elicit the most stereotyped outputs across all models. The framework is made available as an interactive interface that supports the incremental addition of new models.
Orientadora: Profa. Dra. Helena de Medeiros Caseli
Publicações decorrentes deste trabalho:
Fernanda Malheiros Assi and Helena Caseli. 2024. Biases in GPT-3.5 Turbo model: a case study regarding gender and language. In Proceedings of the 15th Brazilian Symposium in Information and Human Language Technology, pages 32–43, Belém do Pará, Brazil. Association for Computational Linguistics.
ASSI, Fernanda Malheiros. Automatic identification of bias in Large Language Models. 2026. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Campus São Carlos, 2026. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/24224.
Título do projeto: Análise de emoções em tweets de resposta a posts do ex-presidente do Brasil Jair Messias Bolsonaro
Nível: Trabalho de Conclusão de Curso
Resumo: Nas últimas décadas, diversos avanços computacionais permitiram o acesso mais democrático à internet e, consequentemente, às redes sociais. O alcance da política digital é vasto e o papel do Twitter nesse cenário é inegável. Esta plataforma evoluiu para se tornar um grande palco para o debate político, onde cidadãos, líderes e instituições interagem diretamente. No Brasil, essa dinâmica é especialmente relevante dada a atividade intensa do ex-presidente Jair Messias Bolsonaro na plataforma. Entretanto, a análise manual de um volume tão grande de dados é impraticável e propensa a erros. Para que tais dados textuais possam ser transformados em informação, são necessárias tecnologias que consigam extrair e processar esses dados. O PLN oferece ferramentas valiosas para a análise automatizada de grandes volumes de texto. Dentre essas ferramentas, destaca-se o GoEmotions, um modelo de aprendizado de máquina que consegue identificar 27 categorias de emoções em textos. Desta forma, este trabalho utilizou o GoEmotions, adaptado para o português, para categorizar as emoções presentes em tweets de resposta aos tweets do ex-presidente Jair Bolsonaro, visando entender quais emoções predominam nesse contexto. A análise dos resultados mostrou um desequilíbrio substancial na presença das emoções no córpus, sendo a “raiva” a emoção mais predominante. Além disso, foi constatada uma performance variada do modelo na identificação das emoções, com maior precisão na identificação de “raiva”, mas apresentando desafios com emoções complexas como “admiração” e “curiosidade”, especialmente em contextos de ironia ou sarcasmo. Esses resultados apontam para o potencial dos modelos de PLN na análise de emoções em tweets políticos, ao mesmo tempo que destacam a necessidade de melhorias contínuas para lidar com nuances da linguagem.
Orientadora: Profa. Dra. Helena de Medeiros Caseli
Publicação decorrente deste trabalho:
ASSI, Fernanda Malheiros. Análise de emoções em tweets de resposta a posts do ex-presidente do Brasil Jair Messias Bolsonaro. 2023. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18488.
Título do projeto: Inferência automática da carga afetiva em postagens de redes sociais
Nível: Iniciação Científica
Breve descrição: Este projeto visa criar um modelo computacional capaz de medir a carga afetiva através do tempo, em postagens de redes sociais, atreladas a um tópico ou evento específico por meio de séries temporais de domínios emocionais. A valência e a excitação média estimadas a partir de postagens realizadas em uma mesma janela curta de tempo representarão uma observação dessa série temporal, que descreve a variação da carga afetiva no espaço de Scherer. Para a previsão de carga afetiva, pretende-se utilizar como base a arquitetura do modelo LSTM e células GRU.
Agência financiadora:
FAPESP (2021/07067-0)
Orientadora: Profa. Dra. Helena de Medeiros Caseli
Publicação decorrente deste projeto:
ASSI, F. M.; CANDIDO, G. B.; SILVA, L. N. S.; SILVA, D. F.; CASELI, H. M. UFSCar’s Team at ABSAPT 2022: Using Syntax, Semantics and Context for Solving the Tasks
fernanda.malheiros@estudante.ufscar.br