PaDAWan

PaDAWan 2024: 1º Workshop de Enriquecimento de Dados em Português (PaDAWan)


Belém, Pará, Brasil

em conjunto com o STIL 2024

17 a 21 de novembro de 2024



 

Apresentação

O Workshop de Enriquecimento de Dados  em Português (PaDAWan) tem como objetivo reunir a comunidade que trabalha com anotação semiautomática de corpora,  particularmente empregando Modelos de Linguagem de Grande Escala (LLMs), em português.


Com o avanço dos LLMs, muitas tarefas tradicionais de Processamento de Linguagem Natural (PLN) estão sendo revisadas. Um desafio-chave tradicional é reunir dados de alta qualidade para treinar e avaliar tarefas específicas. Isso muitas vezes tem sido o principal gargalo no desenvolvimento de modelos de aprendizado de máquina.  Data Augmentation tornou-se uma técnica crucial para melhorar o desempenho de modelos em várias tarefas, especialmente quando os dados confiáveis são limitados. Hoje em dia, especialmente com o uso de LLMs, tornou-se viável aplicar técnicas sofisticadas de enriquecimento de dados de texto de forma eficaz.


O uso de LLMs ainda é muito restrito devido a vários fatores, como custos, preocupações com privacidade, problemas de latência e outros desafios. Diante do cenário atual, o uso de LLMs para gerar dados sintéticos e treinar modelos clássicos para tarefas específicas é uma abordagem viável. Além disso, enquanto muitos trabalhos na indústria consideram dados sintéticos, as discussões científicas sobre métodos e avaliações nem sempre estão alinhadas com as necessidades do mercado.


Este workshop tem como objetivo aprofundar o uso de LLMs para o enriquecimento de dados, explorando possíveis métodos, técnicas de avaliação e considerações éticas associadas. O objetivo é reunir profissionais da indústria e acadêmicos para discutir profundamente o tema.


Convidamos pesquisadores a submeter artigos que discutam desafios e avanços na geração de dados em português, incluindo, mas não se limitando aos seguintes tópicos:

Submissões


As submissões devem descrever trabalhos originais e inéditos. Os autores são convidados a enviar dois tipos de artigos:


Tanto os artigos completos quanto os artigos curtos serão publicados nos anais da conferência principal em uma seção especial. Os autores devem seguir as diretrizes do STIL para publicação.

Lightning Talks

Ainda convidamos para lightning talks: uma apresentação de 10 minutos para resumir ou revisar um artigo já publicado na área.


As lightning talks têm como objetivo permitir que os autores que já contribuíram para o campo compartilhem seus conhecimentos com a comunidade. Elas não serão publicadas e sua aceitação está sujeita à disponibilidade de tempo de slot, considerando primeiro trabalhos inéditos.

Para enviar sua lightning talk, por favor envie um resumo de seu trabalho anterior de até duas páginas pelo link de submissão e selecione "Lightning talk".


Sistema de submissão

As submissões devem ser feitas por meio do sistema EasyChair 

Datas Importantes



Organização


Livy Real - CE-PLN/SBC

Evandro Fonseca - Blip/PUCRS

Paula Cardoso - Universidade Federal do Pará

Comitê de Programa

Palestrante Convidado

Rodrigo Nogueira (Maritaca AI):

Titulo: IAs generativas são capazes de gerar conhecimento?

Resumo: Testemunhamos uma melhoria notável nas capacidades das IAs generativas. Há menos de uma década, ficamos impressionados com seu desempenho em tarefas como geração de legenda de imagens e tradução de máquina. Hoje, muitos de nós as usamos para escrever código e alguns de nós até as deixamos assumir o controle de nossos computadores para realizar tarefas. No entanto, uma questão ainda permanece: eles são apenas ferramentas para nos ajudar em nossas vidas cotidianas ou algo mais, dotadas de inteligência? Nesta palestra, discutiremos um aspecto mais específico deste debate: elas são realmente capazes de produzir novo conhecimento ou apenas "interpolar" dados existentes? Apresentaremos evidências de que elas já estão produzindo novo conhecimento em algumas áreas. Em seguida, investigaremos como essa capacidade permitirá a criação de dados de treinamento de melhor qualidade e como a natureza distribuída dessa tarefa pode reduzir drasticamente o custo de desenvolvimento dos LLMs.


Bio: Rodrigo Nogueira é o fundador e CEO da Maritaca AI, uma empresa de desenvolvimento de LLMs especializados no Brasil. Foi pioneiro no uso de Transformers em sistemas de busca e co-autor do livro "Pretrained Transformers for Text Ranking". Rodrigo é doutor em Ciência da Computação pela Universidade de Nova York (NYU), tendo sido orientado pelo renomado Professor Kyunghyun Cho. Ao longo de sua carreira, Nogueira fez contribuições para os campos de Recuperação de Informação e Processamento de Linguagem Natural através da criação de modelos como o BERTimbau, doc2query, monoT5 e, mais recentemente, os modelos Sabiá 1, 2 e 3, que são LLMs especializados no Brasil.


 Artigos Aceitos




Programa

A Programação completa do evento pode ser vista aqui. Todas as apresentações serão orais e durarão 15 minutos, seguidas de 5 minutos para discussão.



 Crédito da foto: Bruna Brandão - MTUR