Chamada pública:
Seleção de uma equipe de anotação de dados para pesquisa em Argumentação Computacional
Seleção de uma equipe de anotação de dados para pesquisa em Argumentação Computacional
Mudanças de cronograma:
20/12/23 - Prazo máximo para entrega do Termo de Compromisso assinado
22/12/23 - Termos de compromisso assinados pela coordenação e inscrição no Grupo de Telegram para troca de mensagens
02/01/23 - Treinamento online síncrono
---------------------------------------------
Diversas áreas de conhecimento produzem textos argumentativos para suportar suas ideias: pesquisadores produzem artigos científicos; juízes publicam decisões judiciais; cidadãos defendem suas opiniões sobre propostas de projetos de lei; dentre outros. Tais textos são essenciais no avanço do conhecimento humano e todos possuem um elemento em comum: o argumento, composto basicamente de uma premissa que suporta ou ataca uma conclusão. Apesar da elevada produção de conhecimento, para se realizar algo novo, geralmente é necessário fazer o levantamento prévio sobre o assunto, a fim de levantar o ‘estado da arte’ a partir dos documentos produzidos. Além disso, a velocidade da produção de documentos é elevada e devido à urgência de resultados e o prazo para leitura é cada vez mais curto. A título de exemplificação, o conjunto de dados (dataset) CORD-19 selecionou mais de 1 milhão de artigos científicos desde o início da pandemia de COVID (Dez/2019) até o momento (Jun/2022); ou seja, mais de 33 mil artigos científicos mensais em média foram produzidos durante esse período. Para facilitar a sistematização deste tipo de textos argumentativos não-estruturados é proposto a aplicação de técnicas de diagramação de argumentos, com o intuito de gerar visualizações na forma de mapa de argumentos, que facilitam a compreensão e produção de insights para seres humanos.
Fig. 1: Estrutura de argumentos, do manual (guidelines) de Stab and Gurevych (2014)
Esta chamada tem como objetivo montar uma equipe de anotação de um conjunto de textos para a Diagramação de Argumentos. A anotação consiste em gerar exemplos sistematicamente fornecidos por humanos, a fim de gerar uma fonte adequada para o aprendizado computacional. O conjunto desses exemplos é também chamado de conjunto de dados ou dataset. Assim, o processo de anotação consiste na classificação de argumentos por anotadores humanos. A Fig. 1 ilustra uma estrutura de argumentos, com duas premissas (premises) e uma conclusão (claim), com relações de ataque (attack) e suporte (support) entre cada premissa e a conclusão.
Para anotar textos eficientemente, é conveniente utilizar ferramentas de anotação.
Neste estudo faremos uso das ferramentas Brat e Argdown. O Brat fornece uma interface Web com os textos segmentados em parágrafos com rótulos e relações entre eles que podem ser editados de forma gráfica. Na Fig. 2 é apresentado um exemplo de documento anotado com sentenças rotuladas bem como relações entre elas. O Argdown é uma sintaxe simples que fornece visualizações para argumentações complexas. A Fig. 3 apresenta uma visualização gerada pelo Argdown das anotações realizadas no Brat. Nosso estudo desenvolveu uma integração dessas duas ferramentas, a fim de que a anotação de textos do Brat seja apoiada pela visualização do Argdown.
Fig. 2: exemplo de edição do rótulo de uma sentença na ferramenta Brat
Fig. 3: exemplo da visualização produzida pelo Argdown
Em nossa pesquisa, vamos anotar textos disponibilizados publicamente na Internet, particularmente sobre 8 tópicos polêmicos: aborto, clonagem, controle de armas, energia nuclear, legalização da maconha, pena de morte, renda mínima e uniforme escolar. Esses tópicos foram aleatoriamente selecionados em um portal de debates, formando 50 documentos escritos em inglês sobre cada tema, conforme dados coletados por STAB, C. et al. (2018). Assim, serão anotados 400 documentos, que servirão de padrão para testes e avaliação de diagramação de argumentos automático.
O dataset será disponibilizado publicamente sob uma licença aberta (cc-by-sa) e todos seus colaboradores que assim desejarem, receberão seus devidos créditos. Espera-se que seja produzido um dataset de qualidade e que seja utilizado como referência para futuras pesquisas e avanço científico da área. O dataset será parte fundamental do projeto de pesquisa de doutorado do Prof. Marcelo Akira Inuzuka, sob supervisão do Prof. PhD Hugo Alexandre Dantas Nascimento, ambos do INF-UFG e o projeto está registrado e aprovado na Pró-Reitoria de Pós-Graduação da UFG.
Serão abertas 2 vagas para colaboradores bolsistas e 3 voluntários:
Ser estudante da área de Letras ou da área de Computação;
Ter proficiência de leitura em língua inglesa.
Carga de trabalho esperada para bolsistas:
anotação de 6 a 7 documentos por dia de forma online;
dedicação de 2 horas por dia;
reuniões semanais online com duração de 1 hora;
Para a carga horária de voluntários espera-se cerca de 50% da carga horária do bolsista.
Prazo de participação de 6 meses.
Contrapartida:
Bolsa de colaboração (pró-labore) para anotadores selecionados (2 vagas);
valor: R$ 400,00 mensais;
Certificado de participação no projeto de pesquisa registrado na UFG;
Experiência e conhecimento sobre anotação de dados: o que é, como é realizado, avaliado e administrado de forma sistematizada e científica;
Treinamento de leitura da língua inglesa em textos argumentativos: identificação de premissas e conclusões, diagramação e visualização de argumentos; melhoria da leitura crítica sobre textos;
Produção de um conjunto de dados aberto para sociedade com relevante impacto científico, licenciado livremente sob cc-by-sa.
Local de publicação de informações:
e-mail: marceloakira@ufg.br e rdsantos@ufg.br
Formulário de inscrição: clique aqui
Datas importantes das etapas do processo de inscrição e seleção:
30/11/22 a 06/12/22: divulgação e inscrição
07/12/22: divulgação de lista de inscrições homologadas
09/12/22: 12/12/22: Entrevista online, das 15:00 às 19:00 (agendado previamente via formulário)
15 a 20 minutos para cada candidato
serão 8 selecionados
lista de reserva de aprovados
3 bolsistas remunerados
3 bolsistas voluntários, carga horária reduzida (50%)
13/12/22: resultado final, após 19:00
Critérios de pontuação e desempate:
CV Lattes:
titulação: graduação, pós-graduação, etc
experiência em projetos de pesquisa
proficiência em língua inglesa
Sequência de desempate: nota da prova, seguido de entrevista, seguido de proficiência em língua inglesa.
Datas importantes das etapas de anotação:
12/12/22 a 14/12/22: 15/12/22 a 16/12/22 20/12/22: assinatura do termo de compromisso
15/12/22 a 16/12/22: 19/12/22 a 20/12/22: treinamento online assíncrono
22/12/22 a 01/01/23: recesso de Natal e Ano Novo
21/12/22: 02/01/23: treinamento online conectado síncrono
02/01/23 a 12/01/23: fase de calibração/avaliação de análise de desempenho
13/01/23 a 31/03/23 (78 dias): fase 1 - anotação de um lote de 400 documentos de textos
01/04/23 a 01/07/23: (3 meses) fase 2 - anotação de um lote de 400 diagramas de argumentos
STAB, C. et al. Cross-topic Argument Mining from Heterogeneous Sources. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Anais... Em: EMNLP 2018. Brussels, Belgium: Association for Computational Linguistics, out. 2018. Disponível em: <https://aclanthology.org/D18-1402>. Acesso em: 7 dez. 2021