Projetos

Atuais
  • (2016-Atual) MMeaning - Representação semântica distribuída multimodal
    • Auxílio Regular FAPESP
    • Breve descrição: Com a disponibilização cada vez maior de informação na web, o processamento e a recuperação de informação textual e visual são atividades imprescindíveis na geração automática de conhecimento. Como a maior parte da informação disponibilizada na web é composta de texto em língua natural e de imagens, processá-los de modo "inteligente" envolve, necessariamente, o entendimento (a interpretação) do significado da informação que eles transmitem. Uma das formas mais utilizadas para representação do conteúdo semântico é a representação semântica distribuída, a qual está baseada na hipótese distribucional que estabelece que o sentido de uma palavra é dado por seu contexto de ocorrência. Embora a fonte principal para extração de conhecimento semântico usando a hipótese distribucional sejam os corpora, outras fontes de informação extralinguísticas, como imagens, também devem ser levadas em consideração. A combinação de múltiplas fontes de informação na geração de representações semânticas é denominada representação semântica distribuída multimodal. A essa nova linha de investigação soma-se o recente interesse nos modelos de representação distribuída baseados em redes neurais, também conhecidos como modelos de aprendizado profundo (deep learning). Nesse contexto, este projeto visa investigar o uso de fontes diversas de conhecimento, como textos paralelos/comparáveis e imagens, na modelagem semântica distribuída de textos em língua natural a fim de enriquecer as informações utilizadas em aplicações de Processamento de Língua Natural e Recuperação de Informação.
    • Agência financiadora: FAPESP (Auxílio Regular 2016/13002-0: 01/10/2016 a 30/09/2018)
    • Coordenadora: Profa. Dra. Helena de Medeiros Caseli

Anteriores

  • (2014-2017) AIM-WEST - Analysis And Integration Of Multiword Expressions In Speech And Translation
    • Projeto de cooperação internacional
    • Breve descrição: This project aims to investigate techniques, resources and protocols for evaluating and integrating models of multiword expression (MWE) processing into machine translation and automatic speech recognition technology. MWEs like nominal compounds (machine learning, weapons of mass destruction) and verb particle constructions (break down, clear up) are a challenge for current language technology. They often require additional knowledge for correct computational interpretation due to their often opaque and idiomatic semantics. For instance, failing to recognize that an MWE like kick the bucket needs to be interpreted as a unit (to die) may lead to incorrect translations. The AIM WEST project addresses the automatic treatment of MWEs focusing on Portuguese, English and French, and on Portuguese↔English, French↔English and Portuguese↔French translation. The main contribution of the project will be the development of enabling multilingual human machine interfaces that can take into account such complex phenomena as MWEs.
    • Agência financiadora: FAPESP (Auxílio 2013/50757-0: 01/03/2014 a 28/02/2017)
    • Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
    • Equipe na UFSCar:
    • "As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
  • (2014-2016) Processamento de texto e de imagem na descrição online de produtos (#23112.003944/2014-81)
    • Projeto de extensão
    • Breve descrição: Esta Atividade de Extensão tem como objetivo aplicar técnicas de inteligência artificial e aprendizado de máquina para processar informações sobre produtos em páginas Web de e-commerce. A maior parte da informação online é veiculada em língua natural e acompanhada de imagens. O processamento automático e inteligente destas informações faz-se necessário para extrair delas conhecimento útil para desenvolvimento de sistemas inteligentes. Para tanto, nesta atividade serão investigadas, propostas e implementadas ferramentas capazes de extrair conhecimento de texto em língua natural e imagens disponíveis em páginas de descrição de produtos.
    • Empresa parceira/financiadora: Boo
    • Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
    • Equipe na UFSCar:
  • (2014-2016) RITA - RIch Text Analysis through Enhanced Tools based on Lexical Resources
    • Projeto de cooperação internacional
    • Breve descrição: The objective of the project is the development of tools for the syntactico-semantic analysis of Spanish and Portuguese. To do this, we aim to build a framework to integrate the different capabilities and resources of the groups involved. In particular, we want to integrate different lines of work on compositional semantics and enriched lexica: the Lexicon-Grammar tables, verbal subcategorization frames, multiword expressions, grammatical formalisms with enough expressivity to integrate this information, and learning mechanisms capable of building complex models from examples at these levels of analysis.
    • Agência financiadora: CAPES (Auxílio Financeiro 047/14)
    • Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
    • Equipe na UFSCar:
  • (2013-2015) Aprendendo com a web a traduzir e parafrasear textos
    • Auxílio Regular FAPESP
    • Breve descrição: O reconhecimento automático de paráfrases e a tradução automática são duas subáreas do Processamento de Língua Natural (PLN) que compartilham semelhanças, como o fato de ambas lidarem com textos paralelos (textos que expressam o mesmo conteúdo) sejam eles monolíngues (no caso das paráfrases) ou bilíngues (no caso das traduções). Contudo, apenas recentemente alguns poucos estudos foram desenvolvidos explorando a combinação de métodos e técnicas dessas duas subáreas de PLN (BANNARD; CALLISON-BURCH, 2005; CALLISON-BURCH et al., 2006; BARREIRO, 2008; PANG et al., 2003). Neste projeto, visa-se investigar a extração automática de paráfrases e de conhecimento útil para a tradução automática usando a estratégia de aprendizado de máquina sem-fim (AMSF) e a web como fonte de conhecimento. Repositórios onlines de conhecimento como a Wikipédia, por exemplo, definem, explicam e exemplificam conhecimento de maneiras distintas. Repositórios onlines de legendas como OpenSubtitles e SubDB e letras de músicas como o Lyrics apresentam versões de um mesmo texto em vários idiomas. Esses repositórios são valiosas fontes de informação para os métodos de extração automática de paráfrases e de conhecimento útil para a tradução que serão projetados seguindo a estratégia de AMSF. O AMSF é uma estratégia de aprendizado de máquina recente baseada no aprendizado constante e incremental inspirada no modo como nós, humanos, aprendemos. A ideia do AMSF é que ao aprendermos conceitos simples e relações simples entre esses conceitos nós nos tornamos capazes de aprender, no futuro, algo novo e mais complexo (MITCHELL et al., 2008). Essa proposta é inovadora na aplicação de AMSF nas duas subáreas de PLN citadas e poderá dar origem a abordagens integradas contribuindo, assim, com o avanço nessas e outras áreas de pesquisa.
    • Agência financiadora: FAPESP (Auxílio Regular 2013/11811-0: 01/09/2013 a 31/08/2015)
    • Coordenadora: Profa. Dra. Helena de Medeiros Caseli
    • Equipe:
    • "As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
  • (2010-2012) Portal de Tradução Automática: recursos e ferramentas para o português do Brasil
    • Auxílio Regular FAPESP
    • Breve descrição: Esse projeto pretende coletar, criar, implementar e avaliar recursos e ferramentas linguístico-computacionais que envolvam dois ou mais idiomas incluindo o português do Brasil. Tais ferramentas e recursos serão disponibilizados por meio de um Portal de TA sendo, dessa maneira, úteis para aplicações multilíngues como a Tradução Automática (TA).
    • Agência financiadora: FAPESP (Auxílio Regular 2010/07517-0: 01/08/2010 a 31/07/2012)
    • Coordenadora: Profa. Dra. Helena de Medeiros Caseli
    • Equipe:
    • "As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
  • (2008-2011) Investigação e implementação de técnicas de tradução automática com o uso de informação sintática
    • Breve descrição: Esse projeto visava a investigação do uso de informação sintática em diferentes técnicas de tradução automática por meio da implementação ou adaptação e avaliação das mesmas envolvendo, em particular, o português do Brasil.
    • Agência financiadora: Programa Integrado de Apoio ao Docente Recém Doutor da UFSCar (PIADRD)
    • Coordenadora: Profa. Dra. Helena de Medeiros Caseli
    • Equipe:
      • Josué Garcia de Araújo - bolsista de Mestrado (CAPES)
      • Daniel Emílio Beck - bolsista de Mestrado (FAPESP)
      • Israel Aono Nunes - bolsista de Iniciação Científica (IC - PIADRD)
      • Laís Augusta da Silva Meuchi - bolsista de Iniciação Científica (IC - PIADRD)
      • Miguel Mêndola Antonio - bolsista de Iniciação Científica (IC - PIADRD)
Acesse Publicações para consultar os trabalhos derivados desses projetos.