Júlia Yumi Araújo Sato
Formação
(2019 - 2023) Bacharelado em Engenharia de Computação
Universidade Federal de São Carlos (UFSCar)
Projetos no LALIC
Trabalho de Conclusão de Curso (2023)
Título do projeto: Aprendizado multilíngue e multimodal para o português do Brasil
Nível: Trabalho de Conclusão de Curso
Resumo: Este trabalho explora o domínio da tradução automática multimodal, que é um processo que combina informações de diferentes modalidades – como texto, imagens e áudio – para realizar traduções entre idiomas. Assim, esta tarefa tem o objetivo de analisar o impacto de diversos tipos de informações associadas a texto e imagens. Baseando-se no framework Visual Translation Language Modelling (CAGLAYAN et al., 2021), aprimoramos suas capacidades para lidar com outros pares de idiomas e cenários mais complexos relativos à relação entre imagem e texto (SATO; CASELI; SPECIA, 2022). Para avaliar a capacidade de generalização do modelo, utilizamos o corpus multimodal e multilíngue How2 (SANABRIA et al., 2018), que inclui dados de vídeos com legendas em inglês e traduções em português. Além disso, tendo em vista que o masking – isto é, o processo de ocultação de tokens visuais ou linguísticos durante o treinamento – pode aprimorar a compreensão dos modelos, já que torna-se necessário prever os tokens ocultos com base no contexto circundante, foram propostas novas estratégias de masking considerando padrões linguísticos específicos e diferentes categorias semânticas (SATO; CASELI; SPECIA, 2023). Experimentos extensivos na tarefa de tradução automática multimodal português-inglês demonstram a eficácia das técnicas de masking mais informadas. Em particular, descobrimos que o masking seletivo relacionado à categoria “pessoa” melhora significativamente o desempenho, indicando seu papel crucial na interpretação de informações visuais. Essas descobertas oferecem insights sobre o comportamento do modelo e contribuem para o desenvolvimento de abordagens de masking mais eficazes na tradução automática multimodal. Por fim, vale destacar que a abordagem proposta neste trabalho alcança estado-da-arte no conjunto de dados How2 (pontuação BLEU de 53.1) e fornece informações valiosas sobre a interação entre imagens e textos em sistemas de tradução
Orientador: Profa. Dra. Helena de Medeiros Caseli
Publicações decorrentes deste projeto:
Julia Sato, Helena Caseli, and Lucia Specia. 2023. Choosing What to Mask: More Informed Masking for Multimodal Machine Translation. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop), pages 244–253, Toronto, Canada. Association for Computational Linguistics.
Iniciação Científica (2021-2022)
Título do projeto: Aprendizado multilíngue e multimodal para o português do Brasil
Nível: Iniciação Científica
Breve descrição: Os humanos lidam constantemente com informações multimodais, ou seja, conjuntos de dados de diferentes modalidades, como texto e imagens. Para as máquinas processarem a informação de forma semelhante aos humanos, elas devem ser capazes de processar dados multimodais e compreender a relação conjunta entre essas modalidades, não apenas texto ou imagens de forma isolada, por exemplo. Esse aspecto multimodal do aprendizado pode ser bastante útil em aplicações multilíngue, isto é, aplicações que envolvem dois ou mais idiomas. Este projeto propõe a extensão da framework VTLM (Visual Translation Language Modelling), uma abordagem recém publicada por Caglayan et al. (2021). Para isso, vamos utilizar a coleção de dados multimodal e multilíngue How2 (SANABRIA et al., 2018) em 3 vias paralelas com informações inglês-português-visuais alinhadas e explorar estratégias de masking mais informadas para regiões visuais. Dessa forma, o embasamento da linguagem nas regiões da imagem será feito em conjunto entre os idiomas de origem e de destino para a geração de um modelo multilíngue e multimodal útil para diversas aplicações de PLN.
Agência financiadora:
FAPESP (2020/15995-1)
Orientador: Profa. Dra. Helena de Medeiros Caseli
Co-orientador: Profa. Dra. Lucia Specia
Publicações decorrentes deste projeto:
Júlia Sato, Helena Caseli, and Lucia Specia. 2022. Multilingual and Multimodal Learning for Brazilian Portuguese. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 919–927, Marseille, France. European Language Resources Association.
Contato
juliasato AT estudante.ufscar.br