Proyecto FASTPARSE

3/11/2021

Carlos Gómez Rodríguez y Daniel Fernández González asistirán al 2021 Conference on Empirical Methods in Natural Language Processing que tendrá lugar en Punta Cana (República Dominicana) del 7 al 11 de noviembre de 2021. Los investigadores presentarán su trabajo:

Reducing Discontinuous to Continuous Parsing with Pointer Network Reordering

El análisis sintáctico discontinuo es un tipo de análisis sintáctico especialmente complejo, que hace falta para describir algunos fenómenos sintácticos, sobre todo en idiomas con orden de las palabras libre. Sin embargo, a menudo se evita tratarlo por su dificultad, usando en su lugar modelos simplificados que no dan soporte a esos fenómenos. En este trabajo se presenta un método para reducir el análisis discontinuo a un análisis sintáctico estándar (continuo), de modo que podemos utilizar cualquier analizador continuo existente para reconocer esos fenómenos discontinuos, haciendo su tratamiento mucho más fácil. El método se basa en reordenar las oraciones usando un tipo de red neuronal llamada Red Apuntadora.

23/01/2020

Carlos Gómez Rodríguez, Daniel Fernández González y David Vilares Calvo asistirán al 34th AAAI Conference on Artificial Intelligence (AAAI-20) que tendrá lugar en New York (EEUU) del 7 al 12 de febrero de 2020. A continuación incluimos un pequeño resumen de los trabajos que presentarán en el congreso:

Discontinuous Constituent Parsing with Pointer Networks

Una de las representaciones sintácticas más complejas en lingüística computacional y PLN son los árboles de constituyentes discontinuos, cruciales para la representación de todos los fenómenos gramaticales de idiomas como el alemán. En este trabajo proponemos una nueva arquitectura de red que, gracias a las Pointer Networks, es capaz de generar las representaciones de constituyentes discontinuos más precisa hasta la fecha. Para ello, internamente se modelan las estructuras de constituyentes discontinuos como estructuras de dependencias no-proyectivas. Nuestro sistema significativamente supera a todos los trabajos previos en los principales corpora del alemán como son el NEGRA y el TIGER.

Parsing as pretraining

Los codificadores de preentrenamiento son arquitecturas neuronales que aprenden a generar representaciones continuas de palabras, es decir, vectores de palabras, basadas en objetivos de modelado del lenguaje (por ejemplo, dado el contexto anterior, predecir la siguiente palabra). Análisis recientes sugieren que estos codificadores capturan cierta estructura morfosintáctica. Sin embargo, los frameworks prueba para vectores de palabras aún no ofrecen resultados en configuraciones estándar como es el caso del análisis sintáctico, tanto basado en constituyentes como en dependencias. Este artículo aborda dicho problema y realiza un análisis sintáctico completo (para el inglés) basándose únicamente en tales arquitecturas de preentrenamiento. Para ello, primero lanzamos un análisis sintáctico basado en constituyentes y basado en dependencias como etiquetado de secuencias. A continuación empleamos una única capa feed-forward para mapear los vectores de palabras a etiquetas que codifican un árbol linealizado. Lo que buscamos con esto es: (i) ver hasta dónde podemos llegar en el modelado sintáctico simplemente con codificadores pre-entrenados, y (ii) arrojar algo de luz sobre la sensibilidad a la sintaxis de diferentes vectores de palabras (congelando los pesos en la red de pre-entrenamiento durante el entrenamiento).

17/10/2019

David Vilares Calvo y Michalina Strzyz asistirán al 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP2019) que tendrá lugar en Hong Kong (China) del 3 al 7 de noviembre de 2019. Los investigadores presentarán allí su trabajo:

- Haciendo que un analizador sintáctico de dependencias vea

Exploramos si es posible aprovechar datos de registros visuales de lecturas de textos (por ejemplo, el tiempo que un lector pasa en una determinada palabra del texto) dentro de un analizador sintáctico de dependencias basado en redes neuronales, cuando dicha información está solo presente en tiempo de entrenamiento del modelo, es decir, cuando ningún tipo de información visual (agregada o a nivel de palabra) puede ser usada durante la ejecución del modelo. Para conseguirlo, entrenamos un modelo de aprendizaje multi-tarea que como tarea principal analiza sintácticamente oraciones usando una estrategia de etiquetado de secuencias e incorpora la predicción de registros visuales como tarea auxiliar. Nuestro método también aprende a entrenar a partir de conjuntos de datos disjuntos, de manera que colecciones de datos con registros visuales pueden ser utilizadas para mejorar el rendimiento sobre colecciones de textos que carecen de dicha anotación. Las mejoras en precisión son modestas pero positivas, demostrando que la propuesta puede ser útil. Ello también puede servir como un primer paso para desarrollar arquitecturas que combinen registro visuales de lecturas u otro tipo de información complementaria que solo está disponible para las oraciones de entrenamiento, con el objetivo de mejorar el rendimiento de analizadores sintácticos de oraciones.

28/07/2019

Carlos Gómez-Rodríguez, Daniel Fernández-González, David Vilares Calvo y Michalina Strzyz asistirán a la 2019 Annual Conference of the Association for Computational Linguistics (ACL 2019) que tendrá lugar en Florencia (Itallia) del 28 de julio al 2 de agosto de 2019.

- HEAD-QA: A Healthcare Dataset for Complex Reasoning

En los últimos años, las redes neuronales han obtenido avances significativos en la búsqueda de respuestas o question answering, un área del procesamiento del lenguaje natural que trata de encontrar automáticamente la respuesta a una pregunta dada. Sin embargo, las configuraciones sobre las que se realizan estos experimentos son simples, y no requieren razonar, limitándose en muchas ocasiones a preguntas factuales (por ejemplo, ¿En qué año nació Nikola Tesla?). En este trabajo, proponemos usar las preguntas de los exámenes *IR (usadas para acceder a una posición de residente en el sistema público de salud) como un entorno de evaluación más complejo y también más real. A continuación realizamos experimentos tanto en español como en una versión traducida automáticamente al inglés, usando técnicas de recuperación de información y redes neuronales. Los experimentos demuestran la utilidad para evaluar este tipo de modelos, que obtienen puntuaciones positivas, pero modestas y lejos de los resultados esperados por humanos expertos.

- Sequence Labeling Parsing by Learning Across Representations

En lingüística, se habla de gramáticas de constituyentes y de dependencias para representar la estructura sintáctica de una oración. En procesamiento de lenguaje natural, se habla a su vez de analizadores sintácticos de constituyentes y de dependencias para referirse a modelos computacionales que obtienen automáticamente dichas estructuras. Sin embargo, la mayoría de los estudios previos estudian estos dos problemas de manera separada, debido a las diferencias existentes entre ellas. En este trabajo, exploramos un método extremadamente simple para aprender ambas representaciones a la vez. Para ello, obtenemos una representación lineal de las representaciones de constituyentes y dependencias de manera que dada una oración de longitud n, dichas estructuras sean representadas por exactamente n etiquetas. A continuación, entrenamos una única red neuronal para etiquetado de secuencias que resuelve ambas tareas simultáneamente. Los resultados demuestran que nuestro método es preciso y rápido; y que el aprendizaje conjunto de ambas representaciones es incluso beneficioso en comparación con aprender cada una de ellas por separado.

2/05/2019

Carlos Gómez-Rodríguez, Daniel Fernández-González, David Vilares Calvo y Michalina Strzyz asistirán a la 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2019) que tendrá lugar en Minneapolis (EEUU) del 2 al 7 de junio de 2019.

- Análisis sintáctico de dependencias de izquierda a derecha con Pointer Networks.

En este artículo proponemos un novedoso algoritmo basado en transición que es capaz de analizar sintácticamente una oración de izquierda a derecha simplemente construyendo n arcos, siendo n la longitud de la oración de entrada. Al igual que el analizador propuesto por Ma et al. (2018), usamos las Pointer Networks que, dada una palabra, son capaces de directamente apuntar a una posición de la oración de entrada. Sin embargo, nuestro sistema es más simple que el analizador que ellos proponen (sin necesidad de utilizar una pila) y reduce la longitud de la secuencia de transiciones a la mitad, de 2n-1 acciones a n. Como resultado tenemos un analizador sintáctico de dependencias no proyectivo y cuadrático que es dos veces más rápido que el propuesto por Ma et al. (2018) y obtiene la mejor precisión hasta la fecha en el English PTB (96.04% UAS, 94.43% LAS) entre los sistemas supervisados, además de superar a Ma et al. (2018) en la mayoría de los idiomas donde ha sido probado.

- Un analizador sintáctico de constituyentes basado en etiquetación de secuencias mejor, más rápido, más fuerte.

Los modelos basados en etiquetación de secuencias para análisis sintáctico de constituyentes son más rápidos, pero también menos precisos que otros tipos de análizadores. En este trabajo, profundizamos en algunas de sus debilidades actuales: (a) las altas tasas de errores al cerrar constituyentes largos, (b) un vocabulario de salida disperso y (c) la propagación del error debido a las técnicas usadas de decodificación voraz. Para cerrar constituyentes de manera más efectiva, entrenamos un modelo que aprende a cambiar entre distintos esquemas de anotación. Para reducir la dispersión, descomponemos el espacio de salida y usamos aprendizaje multi-tarea para predecir etiquetas parciales. Finalmente, abordamos las limitaciones provenientes de la decodificación voraz a través de funciones de pérdida secundarias en la configuración multi-tarea y con aprendizaje por refuerzo mediante policy gradient. Combinando todas estas técnicas, mejoramos el rendimiento de los modelos de etiquetación de secuencias para el inglés y el chino, y también reducimos su latencia. En los corpus SPMRL (idiomas ricos desde el punto de vista morfológico), se observan incluso mayores mejoras, especialmente en el caso del vasco, hebreo, polaco y sueco.

- Harry Potter y el desafío de predicción de acciones a partir del lenguaje natural

Este trabajo explora el reto de predecir acciones a partir de descripciones de escenas, con el objetivo de aproximar como técnicas de clasificación de texto pueden usarse para predecir futuras acciones. Como caso de estudio, nuestro trabajo se basa en el mundo literario de Harry Potter, tratando de predecir que hechizo se va a castear a continuación, dado un fragmento de una historia. Los hechizos actúan en el libro como palabras clave que abstraen acciones (por ejemplo, ‘Alohomora’ se usa para abrir una puerta) y representa una respuesta al entorno. Esta idea se usa para construir automáticamente HPAC, un corpus que contiene 82836 muestras con 85 acciones distintas.

- Análisis Sintáctico de Dependencias Viable como Etiquetado de Secuencias.

Reinterpretamos el análisis sintáctico de dependencias como un problema de etiquetado de secuencias, explorando varias codificaciones de árboles de dependencias en forma de etiquetas. Aunque el análisis de dependencias mediante etiquetado de secuencias se ha intentado en trabajos ya existentes, los resultados han sugerido que la técnica resultaba poco práctica. En cambio, nosotros mostramos que con un modelo convencional basado en BILSTMs es posible obtener analizadores gramaticales rápidos y precisos. Estos analizadores son conceptualmente simples, y no necesitan de algoritmos de análisis tradicionales ni de estructuras auxiliares. Al contrario, los experimentos en el PTB y en una muestra de colecciones de UD demuestran que ofrecen un buen equilibrio entre velocidad y precisión, con resultados competitivos respecto a enfoques más complejos.

12/04/2019

Michalina Strzyz, asiste estos días al 20th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2019). La investigadora presenta su trabajo:

- Speeding up Natural Language Parsing by Reusing Partial Results

En este artículo se propone una novedosa técnica que aplica el razonamiento basado en casos para la generación de plantillas reutilizables correspondientes a fragmentos de árboles de análisis sintáctico. Dichas plantillas, basadas en bigramas y trigramas de etiquetas morfosintácticas (PoS tags), aprovechan el hecho de que fragmentos de oración similares suelen tener análisis similares. El objetivo de este enfoque es mejorar la velocidad de los analizadores de dependencia al evitar cálculos redundantes.

10/09/2018

Carlos Gómez-Rodríguez, Daniel Fernández-González y David Vilares Calvo asistirán a la 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP2018) que tendrá lugar en Bruselas (Bélgica) del 31 de octubre al 4 de noviembre de 2018. Los investigadores presentarán sus más recientes progresos:

- Dynamic Oracles for Top-Down and In-Order Shift-Reduce Constituent Parsing

Definimos sendos oráculos dinámicos para el entrenamiento de dos de los algoritmos más conocidos y precisos para llevar a cabo análisis sintáctico de constituyentes: los analizadores basados en transiciones top-down e in-order. En ambos casos, los oráculos dinámicos propuestos consiguen incrementar considerablemente su precisión, en comparación con su rendimiento resultante de un entrenamiento estático. Además, al mejorar la precisión del analizador in-order, conseguimos el mejor resultado hasta la fecha (92.0 F1) de un analizador de constituyentes supervisado sobre el conjunto de datos English Penn Treebank

- Constituent Parsing as Sequence Labeling (EMNLP 2018)

Introducimos un método para reducir el análisis sintáctico de constituyentes a etiquetación de secuencias. Para ello, para cada palabra generamos una etiqueta que codifica: (1) el número de ancestros en común en el árbol que una palabra comparte con su siguiente y (2) el símbolo no terminal en el ancestro común más profundo. En primer lugar se demuestra que la codificación propuesta es injectiva para cualquier árbol sin ramas unarias. En la práctica, la codificación es extensible a cualquier tipo de árbol si se colapsan las ramas unarias. A continuación utilizamos los corpus PTB y CTB como entorno para evaluar un conjunto de sistemas base que son veloces. Alcanzamos una F-score del 90% en el conjunto de test del PTB, superando al analizador sintáctico 'sequence-to-sequence' de Vinyals et al. (2015). Además, sacrificando precisión, nuestra aproximación obtiene las mayores velocidades reportadas para un analizador sintáctico de constituyentes en el PTB por un amplio margen.

- Transition-based Parsing with Lighter Feed-Forward Networks

Exploramos si es posible construir analizadores sintácticos más ligeros, que sean equivalentes a sus versiones estándar, para una gran variedad de idiomas con distintas estructuras y morfologías. Como entorno de evaluación, usamos las Universal Dependencies y analizadores sintácticos basados en transiciones y entrenados sobre redes neuronales. Para dichas redes, la mayoría de la investigación existente asume 'features' y tamaños de 'embeddings' estándar y emplea pre-cálculos para obtener incrementos en la velocidad. Este artículo explora cómo reducir las 'features' y el tamaño de las 'embeddings' empleadas y si esto se puede traducir en mejores velocidades sin apenas afectar a la precisión. Los experimentos muestran que las 'features' de segundo orden puede ser eliminadas para la mayoría de los corpus sin un impacto (ni negativo, ni positivo) en términos de LAS. También muestran que el tamaño de las 'embeddings' puede ser reducido significativamente.

10/09/2018

Mark Anderson y David Vilares han sido invitados a dar un par de charlas en el Natural Language Processing Copenhagen Meetup

- - 18/09/2018 - Mark Anderson - Increasing NLP parsing efficiency with chunking.
  - 25/09/2018 - David Vilares - Constituent Parsing as Sequence Labeling.

Para información adicional, pincha sobre la charla de tu interés

1/06/2018

Carlos Gómez Rodríguez asistirá al 56º congreso anual de la Asociación de Lingüística Computacional (ALC2018) que se celebrará en Melbourne (Australia) del 15 de julio al 20 de julio de 2018. Carlos presentará el articulo:

- Analizadores sintácticos de dependencias no proyectivas basados en transiciones globales

En este trabajo, se presentan las primeras implementaciones prácticas de analizadores sintácticos del lenguaje natural que permiten analizar dependencias cruzadas y pueden soportar tanto inferencia exacta (mediante programación dinámica) como inferencia voraz. Gracias a la flexibilidad y capacidad de aprendizaje de modelos de características mínimos cuando se implementan sobre arquitecturas neuronales basadas en Bi-LSTM, estos algoritmos, que antes tenían una complejidad computacional prohibitiva en la práctica, pueden ahora implementarse obteniendo una precisión competitiva con el estado del arte.

1/06/2018

Carlos Gómez-Rodríguez, Daniel Fernández-González y David Vilares Calvo asistirán a la 16ª Conferencia Anual de la sección de Norte América de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano que tendrá lugar en Nueva Orleáns (EEUU) del 1 al 6 de junio de 2018. Estos investigadores presentarán sus más recientes progresos:

- Mejora de la cobertura y complejidad del tiempo de ejecución para deducciones exactas en analizadores sintácticos de dependencias basados en transiciones no proyectivas

Este artículo define una nueva familia de algoritmos que apoya las dependencias cruzadas, que tienen la flexibilidad de ser compatibles tanto con programación dinámica (un método de búsqueda exacto pero lento) como con un analizador de dependencias basado en transiciones (un método de búsqueda aproximado pero rápido). Aunque solo existe un analizador sintáctico con la misma flexibilidad, los algoritmos propuestos mejoran sobre el mismo tanto en términos de eficiencia como de cobertura del fenómeno sintáctico que implica dependencias cruzadas en el lenguaje humano.

- Un Oráculo Dinámico para un Analizador Sintáctico Lineal de Dependencias 2-Planar

En este artículo presentamos un oráculo dinámico eficiente para entrenar el analizador sintáctico de dependencias 2-Planar, se trata de un analizador lineal basado en transiciones y con un 99% de cobertura sobre corpus sintácticos no proyectivos. Este nuevo enfoque ofrece un rendimiento superior al tradicional entrenamiento en prácticamente todos los lenguajes en los que ha sido evaluado, superando, además, en precisión en la gran mayoría de casos al ampliamente utilizado analizador sintáctico Arc-hybrid+SWAP que tiene un 100% de cobertura sobre estructuras no proyectivas.

- Analizador Sintáctico de Dependencias no Proyectivo con Transiciones no Locales

En este artículo presentamos un novedoso sistema de transiciones, basado en el analizador sintáctico de dependencias no proyectivo Covington, que introduce transiciones no locales capaces de crear arcos sobre nodos ubicados a la izquierda de las tradicionales posiciones de actuación de este algoritmo. Con ello logramos reducir las largas secuencias de transiciones NO-ARC que se suelen utilizar para crear dependencias de larga distancia, reduciendo de este modo la principal debilidad de este tipo de analizadores: la propagación de errores. El analizador sintáctico resultante mejora el rendimiento de la versión original y obtiene la mejor precisión lograda hasta la fecha sobre el corpus Penn Treebank con un analizador de dependencias basado en transiciones.

- Un Algoritmo Basado en Transición para Análisis Sintáctico AMR no Restringido

Este artículo aborda el problema de mapear el significado de frases escritas en inglés en estructuras abstractas que contienen información, entre otros aspectos, sobre entidades nombradas, el significado concreto de las palabras o relaciones semánticas entre pares de términos. Dichas estructuras han despertado un gran interés en el ámbito del procesamiento del lenguaje natural, debido a su utilidad para que las máquinas puedan abordar tareas en las que la semántica juega un papel importante, como extracción de información, respuesta de preguntas o traducción automática.

En nuestro trabajo, proponemos un algoritmo que aplica un conjunto de transiciones para transformar una secuencia de palabras en un grafo dirigido, cíclico y etiquetado, conocido con el nombre de grafo AMR. La novedad del enfoque está en su simplicidad para manejar reentradas y ciclos, en comparación a otros algoritmos basados en transiciones. Los experimentos han mostrado que esta simplicidad también se tradujo en mejores resultados cuando se identifican este tipo de arcos, que son habituales cuando existen palabras en una oración que desempeñan múltiples roles semánticos o cuando existe la presencia de fenómenos como la correferencia.

Para información adicional, por favor, visite la página web http://naacl2018.org/program.html

16/04/2018

Carlos Gómez-Rodríguez asistirá como conferenciante invitado al taller "THE ORIGINS AND EVOLUTION OF WORD ORDER" en Evolang XII que se celebrará en Torun (Polonia). El taller tendrá tres conferenciantes invitados que tratarán sobre diversas áreas de investigación referidas al orden de palabras. La charla de Carlos Gómez cubrirá el área de Lingüística computacional:

- Syntactic parsing of human language by minds and machines: Some interesting parallels

En esta charla, perfilará varias maneras en las que el acercamiento usado en lingüística computacional para construir analizadores gramaticales eficientes para los lenguajes humanos está relacionado con los modelos cognoscitivos de procesamiento del lenguaje humano y su influencia sobre la evolución de la sintaxis.

Para información adicional, por favor, visite la página web https://sites.google.com/view/origins-evolution-word-order/inici

3/07/2017

Carlos Gómez-Rodríguez y Daniel Fernández-González asistirán al 55 encuentro anual de la Asociación de Lingüística Computacional (ALC) que tendrá lugar en Vancouver (Canadá) del 30 de julio al 4 de agosto de 2017. Ambos investigadores presentarán sus más recientes progresos:

- Un Sistema de transición completo no-monotónico para el análisis sintáctico no-proyectivo.

Los algoritmos eficientes para analizar la sintaxis de textos del lenguaje humano actúan habitualmente leyendo oraciones de izquierda a derecha y construyendo un árbol sintáctico al mismo tiempo, como se cree que hacen los humanos. Sin embargo, este enfoque puede llevar a errores cuando se toman decisiones sin suficiente información, como cuando leemos “John bought an apple” y la siguiente palabra de la oración es “tree”. Sólo después de leer esta última palabra nos damos cuenta que John no compró una fruta. En esta publicación, hemos desarrollado un algoritmo que puede solucionar estos errores, mediante la modificación de decisiones previas, la primera de su tipo que puede encargarse de dependencias cruzadas que surgen en muchos lenguajes humanos

- Axiomatización genérica de familias de grafos sin cruces en análisis sintáctico dependiente

Esta publicación presenta una codificación novedosa que puede ser usada para representar varias clases de grafos usados para describir la sintaxis y semántica de oraciones en lenguajes humanos, de tal manera que un amplio rango de familias de estos grafos es descrito bajo el bien conocido marco de lenguajes independientes de contexto. La nueva codificación es un desarrollo teórico que puede ser explotado para definir algoritmos de análisis sintáctico genéricos y eficientes que pueden ser fácilmente restringidos a diferentes familias de grafos sintácticos o semánticos, permitiendo tanto analizadores sintácticos de amplia cobertura como analizadores sintácticos más restrictivos que sacrifican cobertura para obtener mayor eficiencia.

Para información adicional, por favor, visite la página web http://acl2017.org/

11/05/2017

El departamento de Ciencias de La Computación de la Universidad de Copenhague ha invitado al Dr. Carlos Gómez Rodríguez a dar un par de charlas sobre Procesamiento del Lenguaje Natural. En estas charlas presentará un resumen de los progresos llevados a cabo en su grupo de investigación en el campo de minería de opiniones usando procesamiento del lenguaje natural y técnicas de aprendizaje de la máquina. Estas charlas tendrán lugar:

- 17/05/2017 - "Dynamic oracles and non-monotonicity for unrestricted non-projective dependency parsing" en el Copenhagen NLP Meetup
- 19/05/2017 - "Rich linguistic processing for multilingual opinion mining" en el departamento de Ciencias de La Computación de la Universidad de Copenhague

Para información adicional, pincha sobre la charla de tu interés

Google Sites

Report abuse