PaDAWan
PaDAWan 2024: 1º Workshop de Enriquecimento de Dados em Português (PaDAWan)
Belém, Pará, Brasil
em conjunto com o STIL 2024
17 a 21 de novembro de 2024
Apresentação
O Workshop de Enriquecimento de Dados em Português (PaDAWan) tem como objetivo reunir a comunidade que trabalha com anotação semiautomática de corpora, particularmente empregando Modelos de Linguagem de Grande Escala (LLMs), em português.
Com o avanço dos LLMs, muitas tarefas tradicionais de Processamento de Linguagem Natural (PLN) estão sendo revisadas. Um desafio-chave tradicional é reunir dados de alta qualidade para treinar e avaliar tarefas específicas. Isso muitas vezes tem sido o principal gargalo no desenvolvimento de modelos de aprendizado de máquina. Data Augmentation tornou-se uma técnica crucial para melhorar o desempenho de modelos em várias tarefas, especialmente quando os dados confiáveis são limitados. Hoje em dia, especialmente com o uso de LLMs, tornou-se viável aplicar técnicas sofisticadas de enriquecimento de dados de texto de forma eficaz.
O uso de LLMs ainda é muito restrito devido a vários fatores, como custos, preocupações com privacidade, problemas de latência e outros desafios. Diante do cenário atual, o uso de LLMs para gerar dados sintéticos e treinar modelos clássicos para tarefas específicas é uma abordagem viável. Além disso, enquanto muitos trabalhos na indústria consideram dados sintéticos, as discussões científicas sobre métodos e avaliações nem sempre estão alinhadas com as necessidades do mercado.
Este workshop tem como objetivo aprofundar o uso de LLMs para o enriquecimento de dados, explorando possíveis métodos, técnicas de avaliação e considerações éticas associadas. O objetivo é reunir profissionais da indústria e acadêmicos para discutir profundamente o tema.
Convidamos pesquisadores a submeter artigos que discutam desafios e avanços na geração de dados em português, incluindo, mas não se limitando aos seguintes tópicos:
Criação e rotulagem de dados
Reformatação e anonimização de dados
Contaminação e ruído de dados
Co-anotação
Avaliação do processo de enriquecimento automatizado de dados e enriquecimento de dados controlado
Ética em dados gerados e geração de dados imparciais
Aplicações práticas ou estudos de caso de técnicas de enriquecimento de dados
Desafios em Dados Sintéticos em Português
Submissões
As submissões devem descrever trabalhos originais e inéditos. Os autores são convidados a enviar dois tipos de artigos:
Artigos completos - Relatando trabalhos substanciais e concluídos, especialmente aqueles que possam contribuir de forma significativa para o avanço da área. Sempre que apropriado, resultados de avaliação concretos devem ser incluídos. Os artigos completos podem consistir em até 8 páginas de conteúdo, mais páginas ilimitadas de referências.
Artigos curtos - Relatando contribuições pequenas e focadas, como trabalhos em andamento, artigos de posição, ideias potenciais a serem discutidas ou resultados negativos. Os artigos curtos podem consistir em até 4 páginas de conteúdo, mais páginas ilimitadas de referências.
Tanto os artigos completos quanto os artigos curtos serão publicados nos anais da conferência principal em uma seção especial. Os autores devem seguir as diretrizes do STIL para publicação.
Lightning Talks
Ainda convidamos para lightning talks: uma apresentação de 10 minutos para resumir ou revisar um artigo já publicado na área.
As lightning talks têm como objetivo permitir que os autores que já contribuíram para o campo compartilhem seus conhecimentos com a comunidade. Elas não serão publicadas e sua aceitação está sujeita à disponibilidade de tempo de slot, considerando primeiro trabalhos inéditos.
Para enviar sua lightning talk, por favor envie um resumo de seu trabalho anterior de até duas páginas pelo link de submissão e selecione "Lightning talk".
Sistema de submissão
As submissões devem ser feitas por meio do sistema EasyChair
Datas Importantes
Cronograma
Prazo final para envio de artigos: 10 11 de setembro de 2024
Notificação dos resultados: 05 08 de outubro de 2024
Data limite para envio das versões finais: 13 de outubro de 2024
Organização
Livy Real - CE-PLN/SBC
Evandro Fonseca - Blip/PUCRS
Paula Cardoso - Universidade Federal do Pará
Comitê de Programa
Evelin Amorin (INESC TEC)
Helena Cameron (ESTGD)
Bernardo Gonçalves (C4AI)
Saullo Haniell (PUC CAMPINAS)
Eduardo Luz (UFOP)
Renan Mendes (BLIP)
Thiago Pardo (USP)
Jayr Pereira (UFPE)
Diana Santos (UIO)
Ivanovich Silva (UFRN)
Malo Souza (UFBA)
Marcos Spalenza (UFES)
Luis Trigo (LIAAD-INESC)
Clarissa Xavier (UFRGS)
Valeria de Paiva (Topos Institute)
Daniela Schmidt (UE)
Palestrante Convidado:
Rodrigo Nogueira (Maritaca AI):
Titulo: IAs generativas são capazes de gerar conhecimento?
Resumo: Testemunhamos uma melhoria notável nas capacidades das IAs generativas. Há menos de uma década, ficamos impressionados com seu desempenho em tarefas como geração de legenda de imagens e tradução de máquina. Hoje, muitos de nós as usamos para escrever código e alguns de nós até as deixamos assumir o controle de nossos computadores para realizar tarefas. No entanto, uma questão ainda permanece: eles são apenas ferramentas para nos ajudar em nossas vidas cotidianas ou algo mais, dotadas de inteligência? Nesta palestra, discutiremos um aspecto mais específico deste debate: elas são realmente capazes de produzir novo conhecimento ou apenas "interpolar" dados existentes? Apresentaremos evidências de que elas já estão produzindo novo conhecimento em algumas áreas. Em seguida, investigaremos como essa capacidade permitirá a criação de dados de treinamento de melhor qualidade e como a natureza distribuída dessa tarefa pode reduzir drasticamente o custo de desenvolvimento dos LLMs.
Bio: Rodrigo Nogueira é o fundador e CEO da Maritaca AI, uma empresa de desenvolvimento de LLMs especializados no Brasil. Foi pioneiro no uso de Transformers em sistemas de busca e co-autor do livro "Pretrained Transformers for Text Ranking". Rodrigo é doutor em Ciência da Computação pela Universidade de Nova York (NYU), tendo sido orientado pelo renomado Professor Kyunghyun Cho. Ao longo de sua carreira, Nogueira fez contribuições para os campos de Recuperação de Informação e Processamento de Linguagem Natural através da criação de modelos como o BERTimbau, doc2query, monoT5 e, mais recentemente, os modelos Sabiá 1, 2 e 3, que são LLMs especializados no Brasil.
Artigos Aceitos
Augmenting Data to Improve the Performance of Recommender Systems - Leticia Freire de Figueiredo, Joel Pinho Lucas and Aline Paes
Automated Topic Annotation in Brazilian Product Reviews: A Case Study of Adversarial Examples with Sabia-3 - Lucas Nildaimon dos Santos Silva and Livy Real
Brazilian Consumer Protection Code: a methodology for a dataset to Question-Answer (QA) Models - Aline Athaydes, Lucas Bulcao, Caio Sacramento, Babacar Mane, Daniela Claro, Marlo Souza and Robespierre Pita.
Getting Logic From LLMs: Annotating Natural Language Inference with Sabiá - Fabiana Avais, Marcos Carreira and Livy Real
LLM-SEMREL: Towards a Better Coreference Resolution for Portuguese - Evandro Fonseca and Joaquim Neto
Text extraction from Knowledge Graphs in the Oil and Gas Industry - Laura Milena Parra Navarro, Elvis A. de Souza and Marco Aurelio Pacheco
Programa
A Programação completa do evento pode ser vista aqui. Todas as apresentações serão orais e durarão 15 minutos, seguidas de 5 minutos para discussão.
Crédito da foto: Bruna Brandão - MTUR