Módulo 2: enfoques y recursos básicos

En este módulo se introducen aspectos fundamentales de toda aproximación a soluciones a problemas de PLN. Se entiende que establecemos un marco muy general en el que cada tarea realiza sus adaptaciones en aras de conseguir los mejores resultados.

En definitiva, hay dos enfoques principales, el basado en conocimiento y el basado en corpus y aprendizaje automático. Se introducen en las lecciones y actividades que se muestran a continuación junto con algunas de las herramientas y recursos típicas y propias de cada uno.

Basado en corpus y basado en conocimiento

Antoni Oliver, profesor de la Universitat Oberta de Catalunya (UOC) entra en algo que se están nombrando constantemente: basado en corpus y basado en conocimiento. Son, en realidad, dos aproximaciones buscando soluciones a los problemas del PLN. Antoni Oliver lo enfoca desde el punto de vista de los recursos más conocidos y usados en las TLH.

Esta es una primera parte general que se completará en la próxima lección con un caso de aplicación concreto.

Cuestionario

Consulta la interfaz de WordNet que encontrarás en: http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl. Busca información sobre la palabra bank en inglés y la palabra banco en español.

¿Qué synset es el correspondiente al significado de entidad bancaria? xxx-30-¿¿¿???-n

Recuerda que el synset se acostumbra a indicar mediante un código numérico de 8 cifras y un guión seguido de n, v, a o r.

Comprueba que este código coincide en inglés y español.

Basado en corpus y basado en conocimiento (y 2)

Antoni Oliver, de la Universitat Oberta de Catalunya, continúa con la segunda parte de "basado en corpus y basado en conocimiento", aplicando lo visto en la lección anterior a un problema concreto del PLN: la desambiguación del sentido de las palabras (word sense disambiguation).

Puedes consultar la transcripción de esta secuencia de vídeos (también en pdf).

Cuestionario

Accede a la demostración de BabelNet y busca, en español, la palabra "banco". Tendrás que navegar un poco para conseguir la información que te vamos a pedir.

Estas preguntas admiten más de una respuesta correcta, incluso todas las opciones podrían ser correctas.

"Banco", como sinónimo de sucursal o entidad financiera de depósito, "es un o una..."

Web 1, 2 y 3.0

Arturo Montejo Ráez, de la Universidad de Jaén, nos expone la historia de la Web y el papel que las TLH pueden y deben jugar en ella. 

Puedes consultar la transcripción del vídeo (también en pdf).

Cuestionario

Este es un ejercicio para introducirte en uno de los recursos mencionados en la lección previa. De forma muy, muy resumida, DBpedia es el resultado de extraer información de Wikipedia y estructurarla en forma de entidades, con sus propiedades, que se relacionan entre sí. La forma de detectar esas relacionas son los propios enlaces dentro de las páginas html. La forma de consultar esta base de datos es utilizar el lenguaje SPARQL.

Busca información en DBpedia (http://es.dbpedia.org/). Hay algunos ejemplos de uso de SPARQL para consultarla. Tendrás que estudiar varios de ellos hasta conseguir una expresión que funcione en Virtuoso (http://es.dbpedia.org/sparql). Concretamente queremos modificar la última de todas y preguntar ¿cuántos músicos cubanos de jazz latino hay?

Algunas pistas:

Comencemos por

PREFIX dcterms: <http://purl.org/dc/terms/>

select * where{

     ?musico dcterms:subject <http://es.dbpedia.org/resource/Categoría:Músicos_de_jazz_latino> .

}

Esos son todos los músicos categorizados como de jazz latino en la wikipedia en español. Si añadimos 

?musico dbpedia-owl:hometown ?lugar .

conseguimos la información de su lugar de nacimiento.Date cuenta de que tenemos varias filas para cada artista, tantas como datos hay almacenados.

Algo de lo que te darás cuenta es de que Bebo Valdés ha desaparecido de la lista. Simplemente, no tiene asociada esa propiedad. Entre que las páginas de Wikipedia en uno y otro idioma no tienen la misma información necesariamente —Bebo en inglés y en español— el proceso de extracción detecta y rellena propiedades en función de lo que es capaz. Consulta la información de la que dispone DBpedia sobre Bebo y Chucho Valdés y comprueba que no tienen las mismas propiedades.

Ahora vamos a añadir el país que está relacionado con el lugar anterior 

?lugar dbpedia-owl:country ?pais .

Por último, filtramos para encontrar 'Cuba' usando FILTER.

Ahora ya estás en condiciones de responder a nuestra pregunta. Ensambla la consulta completa y dinos ¿cuántos músicos cubanos de jazz latino hay?. La consulta debe devolverte una cantidad numérica.

Busca información en DBpedia (http://es.dbpedia.org/). Hay algunos ejemplos de uso de SPARQL para consultarla. Concretamente queremos saber cuántos músicos de jazz latino cubanos puedes encontrar