Módulo 7: soluciones

Estas son las preguntas base del cuestionario final. De ellas, cada uno de vosotros responderá a 10 seleccionadas aleatoriamente. Todas estas preguntas tienen 3 opciones de las que solo una es correcta.

Básicamente, por "aproximaciones" a las TLH entendemos

grandes familias de métodos y algoritmos que se pueden aplicar a cada una de las tareas del PLN como solución.

la restricción de la solución de un problema o tarea a un dominio concreto y restringido que después se puede generalizar mediante la suma de otras soluciones basadas en dominios diferentes.

una solución o prueba preliminar que nos da pistas sobre la solución definitiva.

Un corpus es

un conjunto de reglas que representan condiciones que, de cumplirse, provocarán una elección o una acción.

un gran conjunto de ejemplos, anotados o no, de un determinado elemento lingüístico.

un algoritmo basado en aprendizaje automático para PLN.

La traducción automática no debe ser tan difícil, "bank" es banco en español

no es tán fácil, "banco" y "bank" tienen homónimos

no se necesita nada más que un buen corpus de ejemplos.

por supuesto, los traductores automáticos actuales son 100 % precisos.

De forma muy superficial, podemos decir que el análisis de la estructura lingüística de las oraciones es el

análisis morfológico.

análisis sintáctico.

análisis semántico.

Entonces, "Google Search" es

un sistema de búsqueda de respuestas.

un clasificador de documentos.

un recuperador de información.

Las aplicaciones de traducción automática de asimilación

buscan la mínima cantidad de errores de traducción en particular y lingüísticos en general.

son una aplicación particular de los de diseminación, hacen lo mismo pero con un vocabulario más pequeño.

no le dan tanta importancia a la corrección lingüística, intentan ofrecer un texto mínimamente comprensible.

Los resúmenes automáticos

son indispensables en traducción automática.

solo justifican su uso con publicaciones en Internet.

son potencialmente muy útiles en los agregadores de noticias en Internet.

En un sistema de recomendación automática, se distingue entre "puntuación" y "recomendación"

por una cuestión de método: en ciertas páginas web se añaden estrellitas (puntos) y en otras expresiones como "me gusta".

en el fondo, son lo mismo porque únicamente recomendaré aquello que un grupo muy grande de usuarios ha calificado con la máxima puntuación.

aunque están fuertemente relacionados ya que si soy capaz de predecir la "puntuación" que un usuario daría a ciertos productos, le puedo "recomendar" aquellos a los que les daría una puntuación máxima.

El procesamiento del lenguaje natural en los sistemas de recomendación resulta fundamental

para los sistemas basados en filtrado colaborativo, donde se trabaja más con información que publica o suministra una comunidad de usuarios con gustos e intereses afines.

para los sistemas basados en contenido, porque las descripciones de los productos suelen tener mucho texto y frases completas con una estructura gramatical reconocible y correcta.

en nada, no se usa.

¿Qué se puede recomendar desde el punto de vista del PLN?

solo productos, por ejemplo, el catálogo de Amazon.

páginas web, porque las visitas del usuario nos están informando de qué le interesa al usuario.

cualquier cosa: productos de electrónica, libros a leer, películas, artículos científicos relacionados con un tema, universidades donde estudiar...

La diferencia entre recuperación de información y búsqueda de respuestas es

que la recuperación actúa una vez que la búsqueda ha obtenido un conjunto heterogéneo de documentos donde probablemente se halle la respuesta.

que la recuperación devuelve documentos y la búsqueda examina esos documentos para elaborar una respuesta a una pregunta.

que la búsqueda se realiza con métodos basados en el conocimiento y la recuperación con aprendizaje automático a partir de corpus etiquetados.

En búsqueda de respuesta se suele diferenciar entre

sitios y conceptos.

narración y redacción.

hechos y definiciones.

La exhaustividad —recall—, como métrica a utilizar al comparar sistemas de recuperación de información en general

es la proporción de documentos relevantes obtenidos frente al total de documentos relevantes que se podrían recuperar.

nos informa de la proporción de documentos que son relevantes de entre todos los recuperados.

es la cantidad de documentos recuperados contra el total de documentos de la base de datos.

Métricas como la precisión, exhaustividad, F, etc. sirven para

vender nuestro producto, nuestra aplicación TLH.

comparar con otros sistemas del mismo área del PLN siempre que el corpus de aprendizaje y de test sea el mismo para todos.

comparar con otros sistemas siempre y cuando el conjunto de datos de evaluación sea el mismo para todos o, al menos, comparable.

Un enfoque superficial en generación automática de resúmenes es más simple que una técnica discursiva porque

se basa en grafos y es más fácil abordar un problema de forma gráfica.

no realiza análisis lingüísticos sofisticados como el análisis sintáctico o semántico.

el azar forma parte de su proceso de selección de las oraciones relevantes.

La generación automática de resúmenes basada en la extracción de información y plantillas

es más apropiada en textos fuertemente estructurados.

se utiliza más en textos simples: un título y uno o dos párrafos.

se aplica a dominios y temáticas muy genéricas.

La generación automática de resúmenes se relaciona con otra tarea del PLN, la generación de lenguaje porque

el resumen consiste en copiar y pegar algunas frases concretas del documento o documentos originales.

primero se ha de generar el texto que luego se va a resumir.

el resumen en bruto puede tener una redacción extraña.

Una herramienta como Social Observer

se basa en la mineria de opiniones.

es una herramienta de generación automática de resúmenes.

es un buscador de respuestas.

Un corpus lingüístico es

un conjunto de métodos que se aproximan a la solución a las tareas del PLN desde un enfoque de conocimiento adquirido o estadístico.

un conjunto de ejemplos reales de uso de la lengua en cualquiera de sus aspectos, normalmente muy amplio.

el resultado de una búsqueda por términos en el buscador de Google o en Bing, por ejemplo.

Las aproximaciones basadas en el conocimiento para tareas del PLN

pretenden codificar el conocimiento de un experto humano en un programa de ordenador de forma que este solucione la tarea tal y como lo haría ese mismo experto.

buscan, mediante ejemplos, que un programa informático aprenda por sí mismo a anotar un determinado fenómeno lingüístico sobre un texto desconocido para él.

son mejores que las aproximaciones basadas en corpus.

Las aproximaciones basadas en corpus para tareas del PLN

pretenden codificar el conocimiento de un experto humano en un programa de ordenador de forma que este solucione la tarea tal y como lo haría ese mismo experto.

buscan, mediante ejemplos, que un programa informático aprenda por sí mismo a anotar un determinado fenómeno lingüístico sobre un texto desconocido para él.

son mejores que las aproximaciones basadas en conocimiento.

Los niveles de anotación de un corpus lingüístico de ejemplos (morfológico, sintáctico, semántico, ...)

son los distintos tipos de información lingüística que puede acompañar al texto en forma de etiquetas.

indican la calidad del corpus (morfológico más pobre que sintáctico, sintáctico más pobre que semántico, etc.).

son inclusivos: si tiene información sintáctica ya incluye la morfológica, si semántica incluye sintáctica y morfológica.

¿Cuál de estas afirmaciones es cierta?

las fronteras no siempre están claras: un corpus lingüístico es, de por sí, una fuente de conocimiento.

las aproximaciones basadas en conocimiento nunca utilizan corpus.

las aproximaciones basadas en corpus nunca hacen uso del conocimiento de un experto.

¿En qué tecnología se basa principalmente la Web 3.0?

en TLH.

En tecnologías de inteligencia artificial.

En la Web Semántica.

¿Qué procesos suelen llevarse a cabo antes del análisis sintáctico?

Análisis morfológico y léxico.

Análisis semántico y léxico.

Análisis morfológico y pragmático.

Un análisis de constituyentes

relaciona las palabras entre sí mediante relaciones dirigidas (flechas).

relaciona las palabras entre sí mediante relaciones no dirigidas (líneas).

divide la oración en partes.

Un análisis de dependencias

relaciona las palabras entre sí mediante relaciones dirigidas (flechas).

relaciona las palabras entre sí mediante relaciones no dirigidas (líneas).

divide la oración en partes.

La simplificación de textos consiste en

resumir.

analizar sintácticamente.

facilitar la lectura.

Los colectivos favorecidos por una simplificación automática de textos serían

personas con afasia, dislexia y, en general, todos aquellos con dificultades con el lenguaje.

los servicios de agregación de noticias.

los redactores de noticias.

La polaridad consiste en si una opinión es

veraz o no.

objetiva o subjetiva.

positiva o negativa.

Generalmente, en el análisis de opiniones es muy útil

la relación entre adjetivos y nombres.

los verbos.

la relación entre verbos y nombres.

Si en una opinión encontramos la palabra “bien”, “mejor” y “perfecto”, entonces

es claramente positiva, sin necesidad de más información.

es negativa.

no podemos asegurar que sea positiva, necesitamos más análisis.

En un diccionario creado para el análisis de la opinión

tendremos palabras y polaridad, y a veces también el grado de polaridad.

encontraremos oraciones enteras etiquetadas como positivas o negativas.

tendremos palabras y grado de informalidad.

Podemos decir que el análisis semántico se ocupa, como máximo, de

palabras.

oraciones.

discurso.

Podemos decir que el análisis pragmático se ocupa, como mínimo, de

palabras.

oraciones.

discurso.

La semántica léxica estudia el significado de las palabras, y se corresponde en gran medida

al contenido de los diccionarios.

a los glosarios.

a una taxonomía.

Se percibe como vital el apoyo en la desambiguación semántica automática (word sense disambiguation, WSD) para sistemas de

traducción automática.

análisis morfológico.

cohesión del discurso.

Rol semántico se relaciona con

sentidos de palabras.

relaciones entre predicados y argumentos.

construcciones multipalabra.

Hablando de análisis pragmático, el discurso comprende

dos palabras o más.

una oración.

dos oraciones o más.

Alguno de estos textos tiene coherencia y es discurso:

El coche tomó la curva a gran velocidad. El sol estaba en el horizonte.

El coche tomó la curva a gran velocidad. Su conductor fue cegado por el sol.

Tomó la curva a gran velocidad. Un coche más camino del Sol.

La elipsis

es un mecanismo de cohesión textual.

es una mala construcción que contradice las reglas gramaticales como sujeto-verbo.

impide realizar un buen análisis pragmático.

La detección “intrínseca” del plagio

debe utilizarse si no se dispone de los originales.

es la técnica habitual cuando nos proporcionan originales con los que comparar.

no existe como tal, te lo has inventado.

Entre recuperación de información geográfica (GIR, de Geographic Information Retrieval) y sistema de información geográfica (GIS, Geographic Information System, encontramos diferencias como que

GIR parte de información ya preparada y estructurada, y GIS intenta descubrir datos en textos normales.

GIS parte de información ya preparada y estructurada, y GIR intenta descubrir datos en textos normales.

GIS es más para mapas y GIR para la web .

El preprocesamiento offline en un sistema GIR

sirve para cuando no se dispone de conexión a internet.

quita de la consulta de un usuario (por ejemplo “quiero encontrar un hotel cerca de La Concha en San Sebastián”) todas las palabras inútiles para la búsqueda (como “quiero”).

resume el conjunto de documentos disponible (podría ser la web “al completo”) en índices.