Resumos dos trabalhos aceitos na VII JDP
Provérbios portugueses usuais: distribuição em corpora
Sónia Reis, Jorge Baptista, Nuno Mamede [Human Language Technologies Lab Lisboa]
Os provérbios são um tipo especial de unidades linguísticas que tem sido amplamente ignorado pela comunidade de Processamento de Linguagem Natural (PLN), apesar de levantarem desafios interessantes para o processamento. Este artigo apresenta o procedimento de integração do Mínimo Paremiológico do Português no sistema STRING e a distribuição desses provérbios mais usuais em três corpora distintos do português (europeu).
Constituintes frasais com Função de Sujeito em Sentenças Judiciais
Ester Motta; Maria José Bocorny Finatto [Universidade Federal do Rio Grande do Sul]
Descreve-se a organização sintática de um conjunto de Sentenças dos Juizados Especiais Cíveis, cujos documentos devem ser acessíveis ao cidadão leigo, sem auxílio de um advogado. São destacados os sintagmas nominais com função de sujeito em 110 Sentenças à luz dos estudos de Terminologia, da Linguística de Corpus e de pesquisas sobre compreensão leitora. Verificou-se que a maioria desses sintagmas nominais assume formas que tendem a demandar maior sobrecarga na leitura e a exibir traços pouco coincidentes com padrões da linguagem cotidiana escrita, o que dificulta sua inteligibilidade para o público leigo.
Banco de dados VerboWeb: um panorama do léxico verbal do PB
Márcia Cançado, Luana Amaral, Letícia Meirelles, Thaís Bechir, Amanda Oliveira [Universidade Federal de Minas Gerais]
Neste artigo apresentamos a proposta de descrição e análise de dados verbais do português brasileiro presente no banco de dados VerboWeb. Os verbos foram agrupados e classificados de acordo com o arcabouço teórico-metodológico da Semântica Lexical, que assume que certas propriedades semânticas dos verbos determinam seu comportamento sintático. Mostramos como o banco de dados é estruturado e as generalizações que podemos fazer sobre o léxico verbal de nossa língua.
Descrição de numerais segundo modelo Universal Dependencies e sua anotação no português
Magali Sanches Duran, Lucelene Lopes, Thiago Alexandre Salgueiro Pardo [Núcleo Interinstitucional de Linguística Computacional - NILC/USP]
Este artigo descreve a instanciação das diretrizes do modelo Universal Dependencies (UD) para a anotação de Numerais em português. Mostramos a importância de conhecer o tópico a ser instanciado no contexto de várias línguas, uma vez que a anotação UD tem por objetivo promover, o máximo possível, o paralelismo entre as línguas. Exploramos então a descrição dos numerais nas gramáticas, buscando subsídios para elaborar instruções para atribuir a etiqueta NUM da UD. Os resultados da combinação das diretrizes da UD com as características dos numerais em português são apresentados em detalhes, com exemplos, juntamente com os argumentos que amparam cada decisão tomada.
Complexidade textual em notícias satíricas: uma análise para o português do Brasil
Gabriela Wick-Pedro [Universidade Federal de São Carlos], Roney Santos [Universidade de São Paulo]
Neste artigo é apresentada uma análise da complexidade textual de notícias satíricas e verdadeiras para o português do Brasil. As chamadas Fake News ou notícias falsas têm sido um grande problema na atualidade. O conteúdo satírico é um ponto importante na detecção automática de notícias falsas, pois seu uso pode causar confusão subjacente na análise. Para realização desta pesquisa, foi aplicada a ferramenta NILC-Metrix e avaliadas 16 medidas, entre aspectos descritivos, sintáticos e semânticos, notando-se uma maior complexidade para os textos verdadeiros.
Efeitos da variação linguística na decisão lexical
Victor Renê Souza, Raquel Freitag [Universidade Federal de Sergipe]
Este estudo apresenta uma nova versão do teste de decisão lexical desenvolvido para captar a apreciação social de fenômenos fonológicos variáveis [Freitag e Souza 2019]. Os efeitos de decisão lexical foram testados nas variantes padrão e não padrão dos fenômenos de monotongação de ditongo decrescente e crescente, desnasalização de ditongo nasal átono final e palatalização de oclusivas alveolares, em ambiente progressivo e regressivo, em uma amostra de 25 universitários de Sergipe. Os resultados reforçam o que já foi identificado no estudo anterior: as variantes do tipo estereótipo e marcadores são significativamente associadas a não palavra; enquanto as variantes indicador não apresentam essa relação.
Construções de Estrutura Argumental com Argumento Preposicionado: uma modelagem linguístico-computacional na FrameNet Brasil
Vânia Almeida, Tiago Torrent [Universidade Federal de Juiz Fora]
Este trabalho apresenta uma proposta para representar computacionalmente as construções Transitiva Indireta, Transitiva Oblíqua e Bitransitiva do Português Brasileiro, no âmbito do Constructicon da FrameNet Brasil. Dessa forma, demonstra de que maneira as teorias irmãs da Semântica de Frames e da Gramática das Construções podem contribuir na busca por explicar o uso da linguagem humana, ou seja, os procedimentos de representação que os seres humanos usam para aprender, produzir e compreender os enunciados.
Modelagem de Construções Interrogativas QU- no Constructicon da FrameNet Brasil
Natália Marção, Tiago Torrent [Universidade Federal de Juiz de Fora]
Este trabalho objetiva apresentar a descrição e a modelagem linguístico-computacional das construções interrogativas QU- do Português brasileiro no Constructicon da FrameNet Brasil.
Respostas emocionais da variação linguística: Análise exploratória de rastreio ocular
Raquel Freitag, Julian Tejada, René Almeida, Victor Renê Souza, Paloma Cardoso, Vanesca Leal [Universidade Federal de Sergipe]
Um estudo exploratório de exposição de participantes às variantes de uma variável linguística saliente do ponto de vista social, a palatalização progressiva, foi realizado com o uso de rastreamento ocular para examinar o processamento da variação linguística. Os resultados mostram que exposição à variante estigmatizada captou a atenção e aumentou a dilatação da pupila dos participantes, o que pode ser interpretado como evidência de uma resposta emocional.
Palatalização na fala e na leitura de universitários sergipanos
Lucas Santos Silva, Raquel Freitag [Universidade Federal de Sergipe]
Apresentamos uma análise comparativa acerca da palatalização de /t/ e /d/ em duas amostras independentes, e com tamanho distinto, compostas por dados de fala (n = 8.850) e de leitura em voz alta (n = 831) de estudantes da Universidade Federal de Sergipe. Controlamos as variáveis sociais deslocamento e tempo no curso, e as variáveis linguísticas contexto anterior, contexto posterior, tonicidade e sonoridade, com o objetivo de identificar se os efeitos condicionantes da palatalização da fala atuam na leitura em voz alta. Os resultados sinalizam que, mesmo em amostras distintas, o comportamento dos fatores sociais e linguísticos apresentam estabilidade na mudança e propagação da palatalização na comunidade.
Engenharia de features linguísticas para classificação de triplas relacionais
Elian Conceição Luz, Daniela Barreiro Claro, Camilla Rastely da Silva [Universidade Federal da Bahia]
Neste estudo, elencaram-se features morfossintáticas para classificação de triplas, com base em um corpus paralelo em Galego, Português do Brasil (PT-BR) e Espanhol Europeu (EE). Nos experimentos, a nível sintático, observou-se desempenho relevante de features que oferecem maior dificuldade para extrair triplas válidas, como as co-relacionadas a objeto/sujeito nulo e a inversão verbo-sujeito, bem como triplas relacionais que formam sub-sentenças agramaticais. A nível morfológico, observou-se que a classe gramatical do vocábulo inicial de cada sub-sentença, sobretudo quando são preposições, foram relevantes para a classificação das triplas.
Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies
Ariani Di Felippo [UFSCar], Laura Gazana [UFSCar], Caroline Postali [UFSCar], Gabriel Ceregatto [UFSCar], Emanuel Silva [Facens/USP], Norton Roman [USP/EACH], Thiago Pardo [USP/ICMC]
A anotação de corpus segundo a Universal Dependencies requer a definição do escopo de anotação e a identificação das palavras sintáticas. Entretanto, os tweets possuem fenômenos linguísticos que dificultam esses processos. Neste artigo, apresentam-se as idiossincrasias linguísticas do corpus DANTEStocks, composto por tweets do mercado financeiro, escritos em Português, e as estratégias de segmentação para anotação UD. Assim, contribui-se para a descrição de aspectos linguísticos dos tweets e para o desenvolvimento de recursos e ferramentas de processamento automático desse subgênero de “user-generated content”.
Descrição de uma metodologia desenvolvida para revisão semiautomática de um léxico de palavras de emoção
Barbara Ramos [PUC-Rio]
Este artigo tem por objetivo descrever a metodologia desenvolvida para revisar o Emocionário, léxico de palavras de emoção do projeto AC/DC, da Linguateca. Esta primeira parcela da revisão foi realizada em sete dos 24 grupos do Emocionário, sendo eles “Desespero”, “Esperança”, “Humildade”, “Pena”, “Satisfação”, “Saudade” e “Surpresa”. A metodologia é descrita detalhadamente, fazendo uso de exemplos retirados do próprio corpus para ilustrar cada passo. Ao final, algumas das principais mudanças realizadas são documentadas e discutidas.
Inovação lexical no português contemporâneo a partir de fatos sociais
Aderlande Ferraz [Universidade Federal de Minas Gerais], Geraldo José Rodrigues Liska [Universidade Federal de Alfenas]
O presente artigo, motivado pelas relações entre língua e cultura, especialmente as relações entre léxico e fatos sociais, tem por objetivo mostrar alguns aspectos da inovação lexical no português contemporâneo do Brasil, a partir das criações neológicas no âmbito da mídia eletrônica geradas pela forte influência dos fatos extralinguísticos decorrentes da pandemia da Covid-19. Partindo do critério lexicográfico para identificação da unidade lexical neológica, foram selecionadas manchetes contendo trinta e um neologismos. Com isso, o trabalho revela a abundância de palavras novas geradas no português brasileiro, no período de ocorrência da pandemia da Covid-19
A propósito do verbo falar no português brasileiro: uma análise em corpus e em bases de dados verbais
Isaac Souza de Miranda Junior [UFSCar], Marcella Couto [UFSCar], Francimeire Leme Coelho [UFSCar], Roana Rodrigues [UFS], Oto Vale [UFSCar]
Neste trabalho, investiga-se o comportamento sintático-semântico do verbo “falar” no português brasileiro (PB) em um corpus jornalístico e em três bases de dados verbais do PB (VerbNet.Br, VerboWeb e Verbo-Brasil). Os dados demonstram a polivalência e complexidade de “falar”. Além disso, no que se refere à análise das bases de dados, foi possível constatar a necessidade de revisões manuais, realizadas por linguistas, e/ou ampliações das descrições linguísticas, principalmente ao considerar a relevância de construções com o verbo “falar” para diferentes aplicações na área de Processamento de Língua Natural.