Chamada pública: Equipe de anotação para Argumentação Computacional

Chamada pública:

Seleção de uma equipe de anotação de dados para pesquisa em Argumentação Computacional

Notícia - 13/12/22: Resultado da seleção

Disponível neste link
O termo de compromisso será disponibilizado por e-mail a partir do dia 15/12/22.
Mudanças de cronograma:
- 20/12/23 - Prazo máximo para entrega do Termo de Compromisso assinado
- 22/12/23 - Termos de compromisso assinados pela coordenação e inscrição no Grupo de Telegram para troca de mensagens
- 02/01/23 - Treinamento online síncrono

---------------------------------------------

Gostaria de fazer parte da equipe de um projeto de anotação de dados para uma pesquisa em aprendizado de máquina para argumentação computacional?

Diversas áreas de conhecimento produzem textos argumentativos para suportar suas ideias: pesquisadores produzem artigos científicos; juízes publicam decisões judiciais; cidadãos defendem suas opiniões sobre propostas de projetos de lei; dentre outros. Tais textos são essenciais no avanço do conhecimento humano e todos possuem um elemento em comum: o argumento, composto basicamente de uma premissa que suporta ou ataca uma conclusão. Apesar da elevada produção de conhecimento, para se realizar algo novo, geralmente é necessário fazer o levantamento prévio sobre o assunto, a fim de levantar o ‘estado da arte’ a partir dos documentos produzidos. Além disso, a velocidade da produção de documentos é elevada e devido à urgência de resultados e o prazo para leitura é cada vez mais curto. A título de exemplificação, o conjunto de dados (dataset) CORD-19 selecionou mais de 1 milhão de artigos científicos desde o início da pandemia de COVID (Dez/2019) até o momento (Jun/2022); ou seja, mais de 33 mil artigos científicos mensais em média foram produzidos durante esse período. Para facilitar a sistematização deste tipo de textos argumentativos não-estruturados é proposto a aplicação de técnicas de diagramação de argumentos, com o intuito de gerar visualizações na forma de mapa de argumentos, que facilitam a compreensão e produção de insights para seres humanos.

Sobre o projeto de pesquisa

Fig. 1: Estrutura de argumentos, do manual (guidelines) de Stab and Gurevych (2014)

Esta chamada tem como objetivo montar uma equipe de anotação de um conjunto de textos para a Diagramação de Argumentos. A anotação consiste em gerar exemplos sistematicamente fornecidos por humanos, a fim de gerar uma fonte adequada para o aprendizado computacional. O conjunto desses exemplos é também chamado de conjunto de dados ou dataset. Assim, o processo de anotação consiste na classificação de argumentos por anotadores humanos. A Fig. 1 ilustra uma estrutura de argumentos, com duas premissas (premises) e uma conclusão (claim), com relações de ataque (attack) e suporte (support) entre cada premissa e a conclusão.

Para anotar textos eficientemente, é conveniente utilizar ferramentas de anotação.

Neste estudo faremos uso das ferramentas Brat e Argdown. O Brat fornece uma interface Web com os textos segmentados em parágrafos com rótulos e relações entre eles que podem ser editados de forma gráfica. Na Fig. 2 é apresentado um exemplo de documento anotado com sentenças rotuladas bem como relações entre elas. O Argdown é uma sintaxe simples que fornece visualizações para argumentações complexas. A Fig. 3 apresenta uma visualização gerada pelo Argdown das anotações realizadas no Brat. Nosso estudo desenvolveu uma integração dessas duas ferramentas, a fim de que a anotação de textos do Brat seja apoiada pela visualização do Argdown.

Fig. 2: exemplo de edição do rótulo de uma sentença na ferramenta Brat

Fig. 3: exemplo da visualização produzida pelo Argdown

Em nossa pesquisa, vamos anotar textos disponibilizados publicamente na Internet, particularmente sobre 8 tópicos polêmicos: aborto, clonagem, controle de armas, energia nuclear, legalização da maconha, pena de morte, renda mínima e uniforme escolar. Esses tópicos foram aleatoriamente selecionados em um portal de debates, formando 50 documentos escritos em inglês sobre cada tema, conforme dados coletados por STAB, C. et al. (2018). Assim, serão anotados 400 documentos, que servirão de padrão para testes e avaliação de diagramação de argumentos automático.

O dataset será disponibilizado publicamente sob uma licença aberta (cc-by-sa) e todos seus colaboradores que assim desejarem, receberão seus devidos créditos. Espera-se que seja produzido um dataset de qualidade e que seja utilizado como referência para futuras pesquisas e avanço científico da área. O dataset será parte fundamental do projeto de pesquisa de doutorado do Prof. Marcelo Akira Inuzuka, sob supervisão do Prof. PhD Hugo Alexandre Dantas Nascimento, ambos do INF-UFG e o projeto está registrado e aprovado na Pró-Reitoria de Pós-Graduação da UFG.

Perfil Esperado do Candidato

Serão abertas 2 vagas para colaboradores bolsistas e 3 voluntários:

Ser estudante da área de Letras ou da área de Computação;
Ter proficiência de leitura em língua inglesa.
Carga de trabalho esperada para bolsistas:
- anotação de 6 a 7 documentos por dia de forma online;
- dedicação de 2 horas por dia;
- reuniões semanais online com duração de 1 hora;
Para a carga horária de voluntários espera-se cerca de 50% da carga horária do bolsista.
Prazo de participação de 6 meses.

Contrapartida:

Bolsa de colaboração (pró-labore) para anotadores selecionados (2 vagas);
- valor: R$ 400,00 mensais;
Certificado de participação no projeto de pesquisa registrado na UFG;
Experiência e conhecimento sobre anotação de dados: o que é, como é realizado, avaliado e administrado de forma sistematizada e científica;
Treinamento de leitura da língua inglesa em textos argumentativos: identificação de premissas e conclusões, diagramação e visualização de argumentos; melhoria da leitura crítica sobre textos;
Produção de um conjunto de dados aberto para sociedade com relevante impacto científico, licenciado livremente sob cc-by-sa.

Datas Importantes

Local de publicação de informações:

https://sites.google.com/ufg.br/equipe-arg-computacional
e-mail: marceloakira@ufg.br e rdsantos@ufg.br
Formulário de inscrição: clique aqui

Datas importantes das etapas do processo de inscrição e seleção:

30/11/22 a 06/12/22: divulgação e inscrição

07/12/22: divulgação de lista de inscrições homologadas
09/12~~/22~~: 12/12/22: Entrevista online, das 15:00 às 19:00 (agendado previamente via formulário)
- 15 a 20 minutos para cada candidato
- serão 8 selecionados
- lista de reserva de aprovados
- 3 bolsistas remunerados
- 3 bolsistas voluntários, carga horária reduzida (50%)
13/12/22: resultado final, após 19:00

Critérios de pontuação e desempate:

- CV Lattes:
  - titulação: graduação, pós-graduação, etc
  - experiência em projetos de pesquisa
  - proficiência em língua inglesa
- Sequência de desempate: nota da prova, seguido de entrevista, seguido de proficiência em língua inglesa.

Datas importantes das etapas de anotação:

- 12/12~~/22 a~~ ~~14/12/22~~: 15/12/22 a ~~16/12/22~~ 20/12/22: assinatura do termo de compromisso
- ~~15/12/22 a 16/12/22:~~ 19~~/12/22 a~~ 20~~/12/22:~~ ~~treinamento online assíncrono~~
- 22/12/22 a 01/01/23: recesso de Natal e Ano Novo
- ~~21/12/22~~: 02/01/23: treinamento online conectado síncrono
- 02/01/23 a 12/01/23: fase de calibração/avaliação de análise de desempenho
- 13/01/23 a 31/03/23 (78 dias): fase 1 - anotação de um lote de 400 documentos de textos
- 01/04/23 a 01/07/23: (3 meses) fase 2 - anotação de um lote de 400 diagramas de argumentos

Referências

STAB, C. et al. Cross-topic Argument Mining from Heterogeneous Sources. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Anais... Em: EMNLP 2018. Brussels, Belgium: Association for Computational Linguistics, out. 2018. Disponível em: <https://aclanthology.org/D18-1402>. Acesso em: 7 dez. 2021

Page updated

Report abuse