2023 - Current
Title: Information Extraction and Retrieval using Deep Learning and Natural Language Processing Techniques
Abstract: Information Extraction is the task of automatically extracting structured information from unstructured and/or semi-structured electronic sources, such as digitized or editable documents, images, audios and videos. Information Retrieval deals with the collection, storage, indexing and searching for content in indexed datasets. State-of-the-art research in these areas involves Deep Learning and Natural Language Processing techniques. This project aims to develop approaches for information extraction and retrieval, in addition to creating datasets and evaluating linguistic resources focused on the Portuguese language. Several tasks will be addressed, such as extracting information from digitized and editable documents, recognizing named entities, extracting aspects for sentiment analysis, identifying ideas for innovation, problems and their solutions, classifying texts and search engines. The expected result is the development of several approaches to address these tasks, contributing to the technological development of the country. Work in these areas is of great commercial interest. Large corporations and organizations deal with thousands of documents every day, which contain a lot of information to be extracted and retrieved.
-------
Título: Extração e Recuperação de Informação usando Técnicas de Deep Learning e Processamento de Linguagem Natural
Resumo: Extração de Informação é a tarefa de extrair automaticamente informação estruturada de fontes eletrônicas não estruturadas e/ou semi-estruturadas, tais como documentos digitalizados ou editáveis, imagens, áudios e vídeos. A Recuperação de Informação trata da coleta, armazenamento, indexação e busca por conteúdo nas bases de dados indexadas. As pesquisas do estado-da-arte nessas áreas envolvem as técnicas de Deep Learning e Processamento de Linguagem Natural. Este projeto tem por objetivo desenvolver abordagens para extração e recuperação de informação, além da criação de bases de dados e a avaliação de recursos linguísticos voltados para a língua portuguesa. Diversas tarefas serão abordadas, tais como extração de informação de documentos digitalizados e editáveis, reconhecimento de entidades nomeadas, extração de aspectos para análise de sentimentos, identificação de ideias para inovação, problemas e suas soluções, classificação de textos e máquinas de busca. Espera-se como resultado o desenvolvimento de diversas abordagens para tratar essas tarefas, contribuindo para o desenvolvimento tecnológico do país. Trabalhos nessas áreas são de grande interesse comercial. Grandes corporações e organizações lidam diariamente com milhares de documentos, os quais contém muitas informações a serem extraídas e recuperadas.
2021 - Current
Title: Opinion Mining for Identifying Sentiments and Ideas for Innovation
Abstract: Opinions written by users in reviews of products, services or events have great commercial value. They assist other users in decision making, such as purchasing a new product, and are very useful for companies in monitoring their products/services, promoting a better relationship with their customers, developing better marketing strategies, improvements and innovation in their products/services. Many of these opinions offer suggestions or ideas for innovation, others also describe problems and sometimes contain suggestions for how to solve them. However, the biggest challenge is to automatically process a large amount of text and provide a summary of the considerations found. This project aims to develop opinion mining approaches to identify and extract aspects of an entity, analyze sentiments, identify suggestions for product and service innovation, identify problems and their solutions, and summarize the results. Specific proposals to deal with texts in the Portuguese language will be evaluated. For that, the available linguistic resources for the natural language processing in the Portuguese language will be analyzed. The work will also contribute to the generation of new linguistic resources, mainly those based on informal texts, which are scarce in the language. The resulting solutions can contribute to the Brazilian scientific and technological development. New techniques that advance knowledge in the area can generate innovation, especially when dealing with specific approaches to the Portuguese language.
-------
Título: Mineração de Opinião para Identificação de Sentimentos e Ideias para Inovação
Resumo: Opiniões escritas por usuários em revisões de produtos, serviços ou eventos têm grande valor comercial. Elas auxiliam outros usuários em tomadas de decisão, tal como na aquisição de um novo produto, e são muito úteis para as empresas na monitoração de seus produtos/serviços, promovendo um melhor relacionamento com seus clientes, desenvolvendo melhores estratégias de marketing, melhorias e inovação em seus produtos/serviços. Muitas dessas opiniões apresentam sugestões ou ideias para inovação, outras também descrevem problemas e, às vezes, contém sugestões de como resolvê-los. Entretanto, o maior desafio é processar automaticamente uma grande quantidade de texto e fornecer um resumo das considerações encontradas. Este projeto tem como objetivo desenvolver abordagens de mineração de opinião para identificar e extrair aspectos de uma entidade, analisar sentimentos, identificar sugestões de inovação de produtos e serviços, identificar problemas e suas soluções, e sumarizar os resultados. Serão avaliadas propostas específicas para tratar textos na língua portuguesa. Para isso, serão analisados os recursos linguísticos disponíveis para o processamento de linguagem natual no idioma português. O trabalho também contribuirá na geração de novos recursos linguísticos, principalmente aqueles baseados em textos informais, os quais são escassos no idioma. As soluções resultantes podem contribuir para o desenvolvimento científico e tecnológico brasileiro. Novas técnicas que avançam o conhecimento na área podem gerar inovação, especialmente em se tratando de abordagens específicas para a língua portuguesa.
2022 - 2025
Title: Text Mining for Sentiment Analysis
Abstract: The Web and social media have grown in popularity and have become powerful platforms for communication and interaction. This scenario has attracted the attention of researchers from different areas. Likewise, the task of opinion mining and sentiment analysis has attracted great interest from the scientific community in the fields of study of Text Mining, Natural Language Processing and Machine Learning. Many text classification techniques have been used in this context, however, it is a consensus that the model of message exchange from social media follows the streaming format and these techniques are not suitable for dealing with the specific characteristics of this type of data. The project aims to investigate a specific issue related to text mining and sentiment analysis in a dynamic environment and in the Portuguese language. This issue is relevant due to the challenge imposed by the lack of computational resources, such as corpus, for example, and therefore, the results obtained generally do not reach the same level of accuracy when compared to texts in English. In the literature, there is the example of the Spanish language, which is advancing in research work in the area towards overcoming this challenge, and achieving high-impact results, which shows that this research question is plausible. This project aims to develop research and studies related to the application of machine learning algorithms, text mining techniques and sentiment analysis from texts, including in the Portuguese language, considering three axes of action relevant to this problem: 1) the identification and extraction of aspects, which is fundamental for aspect-based sentiment analysis; 2) the identification of the characteristics of the authors of the publications used for the sentiment analysis task; and 3) the construction of classification models that consider the dynamic nature of data flows.
Support: National Council for Scientific and Technological Development (CNPq)
Publications:
Ferreira Neto, José Carlos; Pereira, Denilson Alves; Barbosa, Bruno H. G.; Ferreira, Danton Diego. Approaches based on Language Models for Aspect Extraction for Sentiment Analysis in the Portuguese Language. Neural Computing and Applications, 2024. Springer. DOI: 10.1007/s00521-024-10265-4 PDF
Oliveira, D. N. de; Utsch, M. N. R.; Machado, D. V. P. de A.; Pena, N. G.; Oliveira, R. G. D. de; Carvalho, A. I. R.; Merschmann, L. H. de C. Evaluating a New Auto-ML Approach for Sentiment Analysis and Intent Recognition Tasks. Journal on Interactive Systems, Porto Alegre, RS, v. 14, n. 1, p. 92–105, 2023. DOI: 10.5753/jis.2023.3161 PDF
Morais, João Pedro Moreira de; Merschmann, Luiz Henrique de Campos. 2022. A Cascade Approach for Gender Prediction from Texts in Portuguese Language. In Proceedings of the Brazilian Symposium on Multimedia and the Web (WebMedia '22). Association for Computing Machinery, New York, NY, USA, 142–149. DOI: 10.1145/3539637.35570
Oliveira, Douglas Nunes de; Merschmann, Luiz Henrique de Campos. 2022. An Auto-ML Approach Applied to Text Classification. In Proceedings of the Brazilian Symposium on Multimedia and the Web (WebMedia '22). Association for Computing Machinery, New York, NY, USA, 108–116. DOI 10.1145/3539637.3557054
-------
Título: Mineração de Texto para Análise de Sentimentos
Resumo: A Web e as mídias sociais têm crescido em popularidade e tornaram-se poderosas plataformas de comunicação e interação. Esse cenário tem atraído a atenção de pesquisadores de diferentes áreas. Da mesma forma, a tarefa de mineração de opinião e análise de sentimentos tem atraído grande interesse por parte da comunidade científica dos campos de estudo em Mineração de Textos, Processamento de Linguagem Natural e Aprendizagem de Máquina. Muitas técnicas de classificação de texto têm sido utilizadas nesse contexto, contudo é consenso que o modelo de troca de mensagens a partir de mídias sociais segue o formato de streaming e essas técnicas não estão adequadas para tratar as características específicas desse tipo de dado. O projeto pretende investigar uma questão específica relacionada à mineração de texto e análise de sentimento em ambiente dinâmico e em língua portuguesa. Essa questão é relevante devido ao desafio imposto pela falta de recursos computacionais, como corpus por exemplo, e com isso, os resultados obtidos geralmente não atingem o mesmo nível de acurácia na comparação com textos em inglês. Na literatura, existe o exemplo de língua espanhola, que está avançando nos trabalhos de pesquisa da área no caminho de superar esse desafio, e alcançando resultados de alto impacto, o que mostra que essa questão da pesquisa é plausível. Este projeto tem como objetivo desenvolver pesquisas e estudos relacionados à aplicação de algoritmos de aprendizagem de máquina, técnicas para mineração de textos e análise de sentimentos a partir de textos, inclusive na língua portuguesa, considerando-se três eixos de atuação relevantes para esse problema: 1) a identificação e extração de aspectos, que é fundamental para a análise de sentimentos baseada em aspectos; 2) a identificação das características dos autores das publicações utilizadas pela tarefa de análise de sentimentos e 3) a construção de modelos de classificação que considerem a natureza dinâmica dos fluxos de dados.
Apoio: Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resultados: vídeo
2023 - 2024
Title: Modeling of Predictive Systems for Sending Financial Transaction Files
Abstract: The project aims to facilitate research in partnership with the private sector, using real data produced within the scope of the partner's activities. Such data will be processed, within the scope of research, to build models that can predict the sending of files with financial transactions to the partner company. These models will be developed using the latest artificial intelligence and machine learning techniques, enabling the promotion of professional qualification of students through studies of real-world problems, proposal of alternative solutions, implementation and testing.
Support: Equals S.A.
-------
Título: Modelagem de Sistemas Preditivos de Envio de Arquivos de Transações Financeiras
Resumo: O projeto tem por objetivo propiciar a realização de pesquisa, em parceria com a iniciativa privada, utilizando-se de dados reais, produzidos no âmbito das atividades do parceiro. Tais dados serão tratados, no âmbito de pesquisa, para a construção de modelos que possam predizer o envio de arquivos com transações financeiras para a empresa parceira. Os referidos modelos serão desenvolvidos com as técnicas mais recentes de inteligência artificial e aprendizado de máquina, possibilitando o fomento à qualificação profissional de alunos por meio de estudos de problemas do mundo real, proposição de alternativas de solução, implementação e testes.
Apoio: Equals S.A.
2020 - 2022
Title: Scientific Document Processing
Abstract: Digital libraries store several types of objects, including scientific documents such as articles, theses and dissertations. To provide quality services, digital libraries need to address issues such as data ambiguity and add value to their collection, making available tools for, for example, providing quality indicators, summaries and reviews of documents, classifying them into specific categories, analyzing the opinion of peers on its content, recommending related works and journals/conferences for publication. In order to address some of these issues, the objective of this project is to develop methods and tools for disambiguating data, extracting, processing and analyzing information related to scientific documents. It is expected that the results may contribute with direct applications in digital libraries and institutional repositories, as well as tools to assist agencies that promote research and evaluation of graduate programs.
-------
Título: Processamento de Documentos Científicos
Resumo: Bibliotecas digitais armazenam diversos tipos de objetos, dentre eles, documentos científicos como artigos, teses e dissertações. Para fornecer serviços de qualidade, as bibliotecas digitais precisam tratar problemas como a ambiguidade de dados e agregar valor a sua coleção, disponibilizando ferramentas para, por exemplo, fornecer indicadores de qualidade, resumos e revisões sobre os documentos, classificá-los em categorias específicas, analisar a opinião dos pares sobre seu conteúdo, recomendar trabalhos relacionados e revistas/conferências para publicação. Com a finalidade de tratar algumas dessas questões, o objetivo deste projeto é desenvolver métodos e ferramentas para desambiguação de dados, extração, tratamento e análise de informação relacionado a documentos científicos. Espera-se que os resultados possam contribuir com aplicações diretas em bibliotecas digitais e repositórios institucionais, além de ferramentas de auxílio a agências de fomento à pesquisa e avaliação de programas de pós-graduação.
2017 - 2020
Title: PVAF - An Environment for Disambiguation of Scientific Publication Venues
Abstract: A publication venue authority file stores variations in the names of journals and conferences that publish scientific articles. It is useful in the construction of search and data disambiguation tools, and it is of particular interest to agencies that funding research and evaluating graduate programs, which use the quality of publication venues as a basis for evaluation of publications of researchers and research groups. However, keeping an updating an authority file is not a trivial task. Different names are used to refer to a same publication venue, sometimes it changes its name, new publication venues emerge regularly and their quality indices are updated frequently. This project aims to develop and integrate methods and tools for creating an environment for disambiguation of data on scientific publication venues. This environment will consist of a publication venue authority file and a set of methods and tools for managing its information.
PVAF Environment: Main Site
-------
Título: PVAF - Um Ambiente para Desambiguação de Veículos de Publicação Científica
Resumo: Um arquivo de autoridade de veículos de publicação armazena variações nos nomes de periódicos e conferências que publicam artigos científicos. É útil na construção de ferramentas de busca e desambiguação de dados, e é de especial interesse de agências de fomento à pesquisa e de avaliação de programas de pós-graduação, as quais usam a qualidade dos veículos de publicação como base para avaliação de publicações de pesquisadores e grupos de pesquisa. Entretanto, manter um arquivo de autoridade atualizado não é uma tarefa trivial. Diferentes nomes são usados para se referenciar um mesmo veículos de publicação, algumas vezes eles mudam de nome, novos veículos surgem regularmente e os seus índices de qualidade são atualizados frequentemente. Este projeto tem como objetivo desenvolver e integrar métodos e ferramentas para criação de um ambiente para desambiguação de dados sobre veículos de publicação científica. Esse ambiente será composto por um arquivo de autoridade de veículos de publicação e um conjunto de métodos e ferramentas para gerenciamento de suas informações.
Apresentação: Ferramentas do PVAF
Ambiente PVAF: Site Principal
Divulgação: DCOM - UFLA
2017 - 2020
Title: BigFeel - A Distributed Processing Environment for Data Disambiguation and Integration of Sentiment Analysis Methods
Abstract: Sentiment analysis is the computational study of people's opinions, evaluations, attitudes, and emotions toward entities such as products, services, organizations, individuals, events, and their different aspects. It is an area in intense activity, with several methods already published. With the growing volume of data on the Web and social networks, there is a need for efficient solutions to execute such methods. One solution is to use distributed computing platforms, such as Apache Spark. In this project, we propose to develop a distributed processing environment for data disambiguation and integration of sentiment analysis methods. The environment, called BigFeel, should contemplate all stages of sentiment analysis, allowing composition of methods, simulation of analyses and case studies. We propose to develop methods for data disambiguation involving entities and their aspects. Aspects are attributes or components of entities, and different terms are used to express the same aspect (or entity) and the same term may have different meanings in different domains. As a case study, we propose to use the methods available in the BigFeel environment to identify ideas for product innovation from reviews found on social networks and on e-commerce sites.
BigFeel Code: Git Repository
-------
Título: BigFeel - Um Ambiente de Processamento Distribuído para Desambiguação de Dados e Integração de Métodos de Análise de Sentimentos
Resumo: A análise de sentimentos é o estudo computacional sobre opiniões pessoais, avaliações, atitudes e emoções em relação a entidades tais como produtos, serviços, organizações, indivíduos, eventos e seus diferentes aspectos. É uma área em intensa atividade, com diversos métodos já publicados. Com o volume de dados cada vez mais crescendo na Web e nas redes sociais, tem-se a necessidade de soluções eficientes para executar tais métodos. Um caminho é o uso de plataformas de computação distribuída, como o arcabouço Apache Spark. Neste projeto, propõe-se o desenvolvimento de um ambiente de processamento distribuído para desambiguação de dados e integração de métodos de análise de sentimentos. O ambiente, denominado BigFeel, deverá contemplar todas as etapas de análise de sentimentos, permitindo a composição de métodos, simulação de análises e estudos de casos. Propõe-se o desenvolvimento de métodos para desambiguação de dados envolvendo entidades e seus aspectos. Aspectos são atributos ou componentes das entidades, e diferentes termos são usados para expressar o mesmo aspecto (ou entidade) e um mesmo termo pode ter significados diferentes em diferentes domínios. Como estudo de caso, propõe-se utilizar os métodos disponíveis no ambiente BigFeel para identificar ideias para inovação de produtos a partir de revisões encontradas nas redes sociais e em sites de comércio eletrônico.
Palestra: Análise de Sentimentos
Código do BigFeel: Repositório Git
2014 - 2017
Title: Study and Development of Solutions for the Entity Resolution Problem described by Textual Data
Abstract: Data repositories on the Web typically contain references to thousands of real-world entities. It is common for a single entity to be labeled in different ways, and it is an important task of applications to aggregate these variations. For example, for online shopping, it is important to aggregate product offers from multiple online stores for the purpose of comparing prices. However, each offer is usually composed of different textual descriptions for the same product. Variations of spellings, acronyms and abbreviated forms contribute to make the problem even more difficult. Solving this problem requires identifying which labels correspond to the same real-world entity, a process known as Entity Resolution. The aim of this project is to study and develop effective and efficient solutions to the entity resolution problem, focusing on specific cases where input data are composed of textual descriptions. From the point of view of effectiveness, strategies will be investigated that take into account the identification of codes embedded in the textual descriptions, such as product codes or acronyms of publication venues. We will also investigate the feasibility of applying metadata extraction techniques and the extraction of named entities used in other applications for the entity resolution problem. From the point of view of efficiency, the proposed solutions will be implemented in parallel and distributed environment using the MapReduce paradigm. It is also goal of this project to transform some of the solutions developed into software products and make them available to the scientific community through a set of Web services.
-------
Título: Estudo e Desenvolvimento de Soluções para o Problema de Resolução de Entidades descritas por Dados Textuais
Resumo: Repositórios de dados na Web normalmente contêm referências para milhares de entidades do mundo real. É comum que uma mesma entidade seja rotulada de formas distintas, e é uma tarefa importante das aplicações agregar essas variações. Por exemplo, para shoppings online, é importante agregar ofertas de produtos de diversas lojas virtuais com a finalidade de comparar preços. Entretanto, cada oferta é normalmente composta por descrições textuais diferentes para um mesmo produto. Variações de grafias, siglas e formas abreviadas contribuem para tornar o problema ainda mais difícil. Resolver este problema requer identificar quais rótulos correspondem a uma mesma entidade do mundo real, um processo conhecido com resolução de entidades. O objetivo deste projeto é estudar e desenvolver soluções efetivas e eficientes para o problema de resolução de entidades, com foco nos casos específicos em que os dados de entrada são compostos por descrições textuais. Do ponto de vista de efetividade, serão investigadas estratégias que levem em consideração a identificação de códigos embutidos nas descrições textuais, tais como códigos de produto ou siglas de veículos de publicação. Também será investigada a viabilidade da aplicação de técnicas de extração de metadados e de extração de entidades nomeadas usadas em outras aplicações para o problema de resolução de entidades. Do ponto de vista de eficiência, as soluções propostas serão implementadas de forma paralela e distribuída usando o paradigma MapReduce. Também é objetivo deste projeto transformar algumas das soluções desenvolvidas em produtos de software e disponibilizá-los à comunidade científica por meio de um conjunto de serviços Web.
Apresentação: Projeto FAPEMIG
2011 - 2014
Title: Development of Algorithm for Extraction and Disambiguation of Bibliographic Citations
Abstract: Publications are used as a basis for evaluation of academic and research institutions. However, to automatically perform a quality bibliometric assessment, effective methods are needed to identify bibliographic citations in documents, to extract them and to disambiguate their component entities, such as authors and publication venues. This project aims to develop algorithms for extraction and disambiguation of bibliographic citations, including the identification and extraction of citations in documents, such as curricula vitae and Web pages, identification of replicated citations and disambiguation of component entities.
-------
Título: Desenvolvimento de Algoritmos para Extração e Desambiguação de Citações Bibliográficas
Resumo: Publicações são usadas como base para avaliação de instituições acadêmicas e de pesquisa. Entretanto, para automaticamente efetuar uma avaliação bibliométrica de qualidade, são necessários métodos eficazes para identificar citações bibliográficas em documentos, extraí-las e desambiguar suas entidades componentes, como autores e veículos de publicação. Este projeto visa desenvolver algoritmos para extração e desambiguação de citações bibliográficas, contemplando as etapas de identificação e extração de citações em documentos, tais como curricula vitae e páginas Web, identificação de citações replicadas e desambiguação de entidades componentes.