Processamento Semântico de Textos em Português

Sobre o projeto

Esse projeto foi uma parceria entre o ICMC-USP e a empresa SAMSUNG Eletrônica da Amazônia LTDA, com duração de 1 ano e seis meses (dezembro de 2013-junho de 2015), cujo objetivo geral foi avançar o estado da arte em processamento semântico de textos/documentos escritos em Português Brasileiro, mais especificamente, permitir a anotação de papéis semânticos e a desambiguação lexical de sentido de verbos, e, com base nesses recursos e ferramentas, construir aplicações de mineração e sumarização de textos, com especial enfoque em opiniões sobre produtos encontrados na Web. O propósito da parceria foi, ao mesmo tempo, viabilizar a transferência direta de tecnologia do grupo de pesquisadores do Núcleo Interinstitucional de Linguística Computacional (NILC), sediado no ICMC-USP, à empresa SAMSUNG, e possibilitar ao grupo a aplicação de sua experiência e modelos linguístico-computacionais para processamento de língua natural em um cenário atual, real, visando à potencial criação de produtos tecnológicos.

Recursos, ferramentas e aplicações


Pesquisa de base


PropBank.Br

Responsáveis: Magali S. Duran e Sandra M. Aluísio

Sobre a área. O Propbank-Br é um projeto que visa anotar corpus com etiquetas de papéis semânticos com a finalidade de constituir corpus de treinamento para classificadores automáticos de papéis semânticos. O esquema de anotação é muito similar ao do Propbank do inglês (Palmer et. al. 2005), respeitadas as diferenças de língua. O conjunto de papéis semânticos foi idealizado para facilitar o aprendizado automático. A anotação é feita sobre as árvores sintáticas geradas pelo parser Palavras (Bick, 2000). O projeto já possui três corpus anotados: o primeiro foi anotado por um único anotador sobre a porção brasileira do corpus Bosque (Afonso et al., 2002), um treebank revisado por linguistas; o segundo foi anotado sobre uma seleção de sentenças do corpus PLN-Br (Bruckschen et al., 2008), sobre árvores não revisadas, usando dois anotadores para cada sentença (anotação duplo-cego) e o terceiro é uma amostra do corpus Buscapé (Hartmann et al. 2014), anotado nas mesmas condições do segundo corpus.

Córpus Propbank-Br v.2. Contém 8.350 instâncias anotadas com rótulos de papéis semânticos. As instâncias foram extraídas do corpus jornalístico PLN-Br (Bruckschen et al., 2008) e analisadas sintaticamente pelo parser PALAVRAS (Bick, 2000). As árvores sintáticas desta versão não foram revisadas por humanos, diferentemente do Propbank-BR v.1 (Duran & Aluísio, 2012), que usou o corpus Bosque (Afonso et al., 2002).

Corpus Propbank-Br amostra Buscapé. Amostra anotada para fins de avaliação de classificadores de papéis semânticos. Contém 840 instâncias anotadas com rótulos de papéis semânticos sobre árvores sintáticas geradas pelo parser Palavras (Bick, 2000). As instâncias foram extraídas do corpus Buscapé (Hartmann et al. 2014), um corpus de opiniões de usuários sobre produtos. As árvores sintáticas da amostra não foram revisadas por humanos.

Referências


Verbo-Brasil

Responsáveis: Magali S. Duran e Sandra M. Aluísio

O Verbo-Brasil é um repositório de verbos concebido para apoiar a tarefa de anotação de papéis semânticos no Projeto Propbank-Br. Ele apresenta um arquivo para cada verbo, onde estão descritos os sentidos identificados e, para cada sentido, o conjunto dos papéis semânticos previstos, nos moldes do Propbank. Os exemplos servem para orientar os anotadores na escolha do identificador do sentido e das etiquetas de papéis semânticos que serão atribuídas. Os sentidos dos verbos foram mapeados, sempre que possível, para os sentidos dos verbos do repositório do Propbank. Aproveitando esse mapeamento, trouxemos as classes da Verbnet a que esses sentidos pertencem, a descrição dos papéis e os papéis correspondentes na Verbnet. O Verbo-Brasil sofre permanentes expansões, à medida que novos verbos e novos sentidos são identificados nas tarefas de anotação de papéis semânticos empreendidas.

Os sentidos dos verbos plenos estão numerados de 01 a 99. Os sentidos de verbos pronominais estão numerados de 101 a 199. Os usos dos verbos como auxiliares estão numerados de 201 a 299. Os usos dos verbos como cópula estão numerado de 301 a 399. Os predicados complexos (verbos multipalavras) estão numerados de 401 a 499 e expressões idiomáticas verbais estão numeradas de 501 a 599.

A pesquisa que gerou o Verbo-Brasil foi financiada pela FAPESP (Processo 2011/22337-1, período: 01/06/2012 a 31/05/2013)


Criaçao de ferramentas de PLN


Brazilis

Responsáveis: Nathan S. Hartmann e Sandra M. Aluísio

Sobre a área. Um conjunto de informação muito importante para a área de PLN, composto pelas relações semânticas entre o verbo e seus argumentos, recebe o nome de conjunto dos papéis semânticos. A tarefa de identificar quais palavras atuam como argumentos da ação de um verbo é denominada anotação de papéis semânticos (Shamsfard and Mousavi, 2007). Para a área de PLN, a anotação de papéis semânticos, utilizando córpus anotados para auxiliar a tarefa, foi idealizada primeiramente por Gildea and Jurafsky (2001, 2002), empregando a Framenet (Baker et al., 1998) como córpus de treinamento. A partir desse marco, vários projetos utilizando APS foram realizados para diversas línguas, dos quais cita-se trabalhos desenvolvidos para o inglês: Gildea and Palmer (2002); Gildea and Hockenmaier (2003); Surdeanu et al. (2003); Palmer et al. (2005); Yi et al. (2007); Toutanova et al. (2008); Pradhan et al. (2008). Para o português do Brasil, o sistema de Alva-Manchego (2013) obteve 79,6 de F1 para árvores sintáticas revisadas (dados gold standard) e Fonseca (2013) obteve 68,0 de F1 utilizando uma abordagem de Deep Learning. Ambos os trabalhos utilizaram o córpus PropBank.Br.

Objetivos. Os objetivos desse trabalho de mestrado são: avançar o estado da arte na APS do português brasileiro no gênero jornalístico; avaliar um anotador de papéis semânticos do português brasileiro para o gênero de textos de opinião sobre produtos na Web.

Resultados. Este trabalho de mestrado desenvolveu um anotador de papéis semânticos, para o português brasileiro, que foi treinado sobre árvores sintáticas não revisadas (parcela do córpus PLN-Br). O sistema obteve 72,62 de F1 ao anotar o córpus PropBank.Br (gold standard) e 69,12 de F1 ao anotar o próprio córpus de treinamento (automatic parsing). O sistema de Alva-Manchego, em comparação, obteve apenas 54,76 de F1 ao anotar o nosso córpus. Assim, esse trabalho mostra que, para anotar árvores sintáticas não revisadas (cenário real de aplicação), o nosso sistema desempenha, com diferença estatística, melhor APS sobre os dados. Também mostramos que na anotação de árvores sintáticas não revisadas de revisões de produtos, coletadas do website Buscapé, o nosso sistema desempenha 65,34 de F1 contra 57,72 de Alva-Manchego (com diferença estatística). Ainda desenvolvemos um sistema de inserção de sujeitos ocultos (primeiras pessoas do singular e plural) com 87,8% de precisão na seleção do PLN.Br e 94,5% de precisão no Buscapé. A explicitação desses sujeitos no texto possibilita a sua anotação e, assim, a melhora na qualidade geral do sistema de APS. Por fim, desenvolvemos um anotador de papéis semânticos, baseado em regras, para verbos auxiliares. O sistema anota a forma como o verbo auxiliar auxilia o verbo principal. Esse sistema possui 96,76% de confiança ao ser aplicado sobre a nossa seleção do córpus PLN-Br.

Referências


VerSenDis-Br

Responsáveis: Marco A. Sobrevilla Cabezudo e Thiago A. S. Pardo

Sobre a área. A tarefa de Desambiguação Lexical de Sentido(DLS) consiste em determinar automaticamente os sentidos mais apropriados das palavras em seus contextos de ocorrência (sentenças ou textos), utilizando-se um repositório de sentidos pré-especificado (Agirre e Edmonds, 2006). Esse tipo de processamento textual, de natureza semântica, é de grande relevância atualmente e se encontra na vanguarda dos interesses de pesquisa da comunidade de Processamento de Linguagem Natural. Suas motivações advêm da grande quantidade de informação disponível, principalmente online, e da crescente necessidade de processamento textual mais informado, com uso de mais conhecimento linguístico, para que seja possível a produção de ferramentas e sistemas computacionais com melhor desempenho. O trabalho de mestrado está focado na desambiguação lexical de sentido para os verbos em português brasileiro, sendo os objetivos os seguintes: explorar e desenvolver métodos tradicionais da área de DLS e avaliar os mesmos na desambiguação dos verbos do português brasileiro; incorporar o conhecimento linguístico proveniente de repositórios semânticos para a língua portuguesa, como o PropBank-Br e a VerbNet.Br e avaliar o impacto que este conhecimento produz sobre os métodos tradicionais.

Referência


Desenvolvimento de produtos


Opinion-C

Responsáveis: Lucas V. Avanço e Maria das Graças V. Nunes

Sobre a área. Análise de Sentimentos ou Mineração de Opiniões é uma das subáreas de Processamento de Língua Natural (PLN) e tem por objetivo analisar computacionalmente opiniões, sentimentos e subjetividade presentes em textos (Pang & Lee, 2008). Apesar de PLN não ser uma área recente, a Análise de Sentimentos, apenas na última década, passou a ter uma comunidade mais ativa de pesquisadores, coincidindo, não por acaso, com a crescente quantidade de textos opinativos produzidos por mídia social na Web (blogs, microblogs, redes sociais, fóruns e avaliações de produtos e serviços em portais de e-commerce). Este projeto de mestrado tem como objetivo investigar diferentes métodos de classificação de opiniões presentes em textos escritos em Português Brasileiro. A pesquisa terá como base um corpus compilado da web, de textos opinativos referentes a equipamentos eletrônicos. Os métodos investigados são os dos paradigmas baseados em Léxico e de Aprendizagem de Máquina. Os protótipos construídos serão avaliados segundo critérios do estado da arte.

Referência


Opizer

Responsáveis: Roque López Condori e Thiago A. S. Pardo

Sobre a área. A Sumarização de Opiniões, também conhecida como Sumarização de Sentimentos, é a tarefa que consiste em gerar automaticamente sumários para um conjunto de opiniões sobre um alvo específico (Conrad et al., 2009). Esta nova tarefa surgiu pelo crescimento continuo de textos subjetivos, tais como: postagens, tweets, comentários, etc, nos quais os cibernautas expressam suas opiniões sobre produtos, pessoas, eventos, empresa, etc. A sumarização de opiniões visa analisar estas opiniões, para extrair e apresentar as informações mais relevantes para um usuário final.

Objetivos e resultados. Nesse cenário, neste projeto de mestrado, investigou-se o desenvolvimento de alguns métodos de sumarização de opiniões com base em aspectos. Em particular, foram implementados quatro métodos clássicos da literatura, extrativos e abstrativos. Esses métodos foram analisados em cada uma de suas fases e, como consequência dessa análise, produziram-se duas propostas para gerar sumários de opiniões. Essas duas propostas tentam utilizar as principais vantagens dos métodos clássicos para gerar melhores sumários. Para a produção dos sumários, são propostos dois métodos novos: um método extrativo e um método abstrativo. De maneira sucinta, o método extrativo proposto tem duas etapas: agrupamento de sentenças e ranqueamento de sentenças. De forma análoga, o método abstrativo está dividido em duas etapas: agrupamento de segmentos textuais e geração com base em templates. Na proposta extrativa, a primeira etapa visa agrupar as sentenças em nível de aspecto e de polaridade. Na segunda etapa, realiza-se um ranqueamento para selecionar as sentenças mais relevantes de cada aspecto. Com estas duas etapas, pretende-se gerar um sumário extrativo. Para o método abstrativo proposto, a primeira etapa visa agrupar e selecionar os segmentos textuais (n-gramas) mais relevantes para cada aspecto. Finalmente, na segunda etapa do método abstrativo, templates criados manualmente são preenchidos com os dados da etapa anterior segundo seu contexto.

Referência


Sumarisandro

Responsáveis: Alessandro B. Garay e Thiago A. S. Pardo

Sobre a área. A Sumarização Automática Multidocumento (SAM) consiste na produção de um sumário/resumo a partir de uma coleção de textos sobre um mesmo assunto. Devido à grande quantidade de informação disponível na Web, esta tarefa é de grande relevância, já que, pode fornecer informação de interesse para o usuário final. Neste projeto de pesquisa, propõe-se a investigação da SAM com base em aspectos informativos, pertencente à abordagem profunda para sumarização, interpretando o texto para se produzir sumários mais informativos. Os aspectos representam unidades de informação presentes em textos e sumários que contêm informações utéis para o usuário. Por exemplo, no gênero jornalístico, o usuário quer saber "o que aconteceu", "quando aconteceu" e "onde aconteceu".

Objetivos. O objetivo principal desta pesquisa é investigar métodos automáticos de sumarização multidocumento com base em aspectos que possam gerar sumários mais informativos. Os objetivos específicos são: identificar automaticamente aspectos informativos utilizando papéis semânticos, entidades nomeadas, regras manuais e técnicas de aprendizado de máquina e, assim, criar um classificador multirrótulo de aspectos; desenvolver e avaliar alguns métodos de seleção de conteúdo para sumarização com base em padrões de ocorrência de aspectos em textos e sumários; avaliar a informatividade dos sumários gerados.

Integrantes


Coordenadores


Equipe de pesquisa


Equipe temporária

Publicações


2015

Avanço, L. V. (2015). Sobre normalização e classificação de polaridade de textos opinativos na web. (Dissertação de mestrado).

Bokan, A.; Pardo, T. A. S. Automatic Microaspects Identification. CICLING: 16th International Conference on Intelligent Text Processing and Computational Linguistics. April 14–20, Cairo, Egypt. “Research in Computing Science” (RCS, http://rcs.cic.ipn.mx).

Bokan, Alessandro, and Thiago A. S. Pardo. 2015. “Identificação Automática de Microaspectos em Textos Jornalísticos.” Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, NILC-TR-15-02, 406:1-36. São Carlos, São Paulo, Brazil, Junho.

Bokan, Alessandro, and Thiago A. S. Pardo. 2015. “Identificação Automática de Microaspectos em Textos Jornalísticos.” Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, NILC-TR-15-01, 406:1-43. São Carlos, São Paulo, Brazil, April.

Duran, M. S.; Avanço, L. V.; Nunes, M. G. V. . Importância dos falsos homógrafos para a correção automática de erros ortográficos em Português. In: IV Jornada de Descrição do Português - STIL 2015 - X Brazilian Symposion on Information and Human Language Technology and Collocated Events, 2015, Natal-RN, p. 265-273.

Duran, M. S.; Avanço, L. V.; Nunes, M. G. V. . A Normalizer for UGC in Brazilian Portuguese. In: ACL 2015, Workshop on Noisy User-generated Text - WNUT, 2015, Beijing, China, p. 38-47.

Duran, M. S.; Aluísio, S. M. 2015. Automatic Generation of a Lexical Resource to support Semantic Role Labeling in Portuguese. Proceedings of SEM 2015: The Fourth Joint Conference on Lexical and Computational Semantics, p. 216-221.

López, R.; Pardo, T. A. S. (2015). Experiments on Sentence Boundary Detection in User-Generated Web Content. In Proceedings of the 16th International Conference on Intelligent Text Processing and Computational Linguistics. Springer International Publishing, pp. 227-237.

López, R.; Avanço, L.; Filho, P.; Bokan, A.; Cardoso, P.; Dias, M., Nóbrega, F.; Sobrevilla, M.; Souza, J.; Zacarias, A.; Di Felippo, A.; Seno, E.; Pardo, T. A. S. (2015). A Qualitative Analysis of a Corpus of Opinion Summaries based on Aspects. In Proceedings of the 9th Linguistic Annotation Workshop.Association for Computational Linguistic, pp. 62­-71.

Sobrevilla M.; Pardo T. A. S. (2015) Exploratory Study of Word Sense Disambiguation Methods for Verbs in Brazilian Portuguese. 16th International Conference on Intelligent Text Processing and Computational Linguistics - CICLing 2015. Cairo. Egypt.


2014

Avanço, L. V. ; Duran, M. S. ; Nunes, M. G. V. . Towards a Phonetic Brazilian Portuguese Spell Checker. In: PROPOR 2014 - I Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish, 2014, São Carlos. PROPOR 2014 - I Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish, 2014. p. 24-31.

Avanço, L. V. ; Nunes, M. G. V. . Lexicon-based Sentiment Analysis for Reviews of Products in Brazilian Portuguese. In: Brazilian Conference on Intelligent Systems, 2014, São Carlos. Brazilian Conference on Intelligent Systems, 2014. p. 277-281.

Balage Filho, P. P. ; Avanço, L. V. ; Pardo, T. A. S. ; Nunes, M. G. V. NILC_USP: An Improved Hybrid System for Sentiment Analysis in Twitter Messages. In: 8th International Workshop on Semantic Evaluation (SemEval 2014), 2014, Dublin, Ireland. 8th International Workshop on Semantic Evaluation (SemEval 2014), 2014. p. 428-432.

Duran, M. S.; Avanço, L.V.; Aluisio, S.M.; Pardo, T.A.S.; Nunes, M.G.V. Some issues on the normalization of a corpus of products reviews in Portuguese. Proceedings of the 9th Web as Corpus Workshop (WAC-9) EACL 2014. 7p., Gothenburg, Sweden.

Duran M. S.; Sepúlveda-Torres, L.; Coimbra, M.; Hartmann, N. S; Aluisio, S.M. ( 2014). Seleção e preparação de sentenças do córpus PLN-Br para compor o córpus de anotação de papéis semânticos Propbank-Br.v2. NILC-TR 07-14.

Hartmann, N. S., L. Avanço, P. P. Balage Filho, M. S. Duran, M. d. G. Volpe Nunes, T. S. Pardo, Aluísio S. M. (2014). A large opinion corpus in portuguese – tackling out-of-vocabulary words. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, Iceland, pp. 3865-3871, European Language Resources Association (ELRA).

Hartmann, N. S., Viviani, M. C., dos Santos, L. B. (2014). Towards Semantic Role Labeling Annotation on Product Reviews in Brazilian Portuguese. Proceedings of 1st Samsung HLT Young Researchers Symposium, Warsaw, Poland, pp. 21-25.

Hartmann, N. S., Duran M. S., Aluísio, S. M. (2014). Filling the gap: inserting an artificial constituent where a subject is omitted in Portuguese. Proceedings of I Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish, São Carlos, Brazil.

Marco Sobrevilla, Erick Maziero, Jackson Souza, Márcio Dias, Paula Cardoso, Pedro Balage, Verónica Agostini, Fernando Nóbrega, Cláudia Dias De Barros, Ariani Di Felippo, and Thiago Pardo. (2014) Anotação de Sentidos de Verbos em Notícias Jornalísticas em Português do Brasil. In the Proceedings of the XII Encontro de Linguística de Corpus - ELC. Uberlândia-MG/Brazil.

Marco Sobrevilla, Erick Maziero, Jackson Souza, Márcio Dias, Paula Cardoso, Pedro Balage, Verónica Agostini, Fernando Nóbrega, Cláudia Dias De Barros, Ariani Di Felippo, and Thiago Pardo. (2014) Anotação de Sentidos de Verbos no Córpus CSTNews. Relatório Técnico 402. Instituto de Ciências Matemáticas e de Computação.

Mendonça, G. A.; Aluíso, S. M. (2014). Using a hybrid approach to build a pronunciation dictionary for Brazilian Portuguese. In Proceedings of the 15th Annual Conference of the International Speech Communication Association (Interspeech 2014).International Speech Communication Association (ISCA), v. 1. pp. 1-5.

Contato


NILC - Núcleo Interinstitucional de Linguística Computacional
Instituto de Ciências Matemáticas e de Computação,  Universidade de São Paulo
Avenida Trabalhador são-carlense, 400 - Centro. CEP: 13566-590. São Carlos/SP, Brasil.
www.nilc.icmc.usp.br