Módulo 2: soluciones a los cuestionarios

Cuestionario

Consulta la interfaz de WordNet que encontrarás en: http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl. Busca información sobre la palabra bank en inglés y la palabra banco en español.

¿Qué synset es el correspondiente al significado de entidad bancaria? xxx-30-08420278-n

Recuerda que el synset se acostumbra a indicar mediante un código numérico de 8 cifras y un guión seguido de n, v, a o r.

Comprueba que este código coincide en inglés y español.

En realidad, estás examinando un metaíndice que relaciona los synsets de varias lenguas. Así, el código para un concepto expresado en esas lenguas, "institución financiera" por ejemplo, será el mismo en todas ellas.

Cuestionario

Accede a la demostración de BabelNet y busca, en español, la palabra "banco". Tendrás que navegar un poco para conseguir la información que te vamos a pedir.

Estas preguntas admiten más de una respuesta correcta, incluso todas las opciones podrían ser correctas.

"Banco", como sinónimo de sucursal o entidad financiera de depósito, "es un o una..."

Las respuestas correctas son "institución financiera" y "empresa". Este dato se obtiene accediendo al primer enlace que nos ofrece BabelNet tras la búsqueda.

Cuestionario

Este es un ejercicio para introducirte en uno de los recursos mencionados en la lección previa. De forma muy, muy resumida, DBpedia es el resultado de extraer información de Wikipedia y estructurarla en forma de entidades, con sus propiedades, que se relacionan entre sí. La forma de detectar esas relacionas son los propios enlaces dentro de las páginas html. La forma de consultar esta base de datos es utilizar el lenguaje SPARQL.

Busca información en DBpedia (http://es.dbpedia.org/). Hay algunos ejemplos de uso de SPARQL para consultarla. Tendrás que estudiar varios de ellos hasta conseguir una expresión que funcione en Virtuoso (http://es.dbpedia.org/sparql). Concretamente queremos modificar la última de todas y preguntar ¿cuántos músicos cubanos de jazz latino hay?

Algunas pistas:

Comencemos por

PREFIX dcterms: <http://purl.org/dc/terms/> 

select * where{ 

     ?musico dcterms:subject <http://es.dbpedia.org/resource/Categoría:Músicos_de_jazz_latino> . 

}

Esos son todos los músicos categorizados como de jazz latino en la wikipedia en español. Si añadimos 

?musico dbpedia-owl:hometown ?lugar .

conseguimos la información de su lugar de nacimiento.Date cuenta de que tenemos varias filas para cada artista, tantas como datos hay almacenados.

Algo de lo que te darás cuenta es de que Bebo Valdés ha desaparecido de la lista. Simplemente, no tiene asociada esa propiedad. Entre que las páginas de Wikipedia en uno y otro idioma no tienen la misma información necesariamente —Bebo en inglés y en español— el proceso de extracción detecta y rellena propiedades en función de lo que es capaz. Consulta la información de la que dispone DBpedia sobre Bebo y Chucho Valdés y comprueba que no tienen las mismas propiedades.

Ahora vamos a añadir el país que está relacionado con el lugar anterior 

?lugar dbpedia-owl:country ?pais .

Por último, filtramos para encontrar 'Cuba' usando FILTER.

Ahora ya estás en condiciones de responder a nuestra pregunta. Ensambla la consulta completa y dinos ¿cuántos músicos cubanos de jazz latino hay?. La consulta debe devolverte una cantidad numérica.

Busca información en DBpedia (http://es.dbpedia.org/). Hay algunos ejemplos de uso de SPARQL para consultarla. Concretamente queremos saber cuántos músicos de jazz latino cubanos puedes encontrar

En el momento de realizar este documento —la información puede cambiar en el tiempo— la respuesta es 13.

Una posible expresión sería la siguiente:

PREFIX dcterms: <http://purl.org/dc/terms/>

select count(*) where{

 ?musico dcterms:subject <http://es.dbpedia.org/resource/Categoría:Músicos_de_jazz_latino> .

 ?musico  dbpedia-owl:hometown  ?lugar .

 ?lugar    dbpedia-owl:country  ?pais .

 FILTER(regex(?pais,'Cuba'))

}

Fíjate que lo que hacemos es relacionar cada una de las variables ?xxx mediante las propiedades que sabemos que poseen —eso implica, obviamente, conocer o consultar la ontología que maneja BDpedia—. Una vez que obtenemos filas con información sobre artista, lugar de nacimiento y país de ese lugar, simplemente filtramos y obtenemos únicamente aquellas que son del país Cuba.

Es necesario decir que una consulta escrita en otros términos obtendría valores diferentes. Es el precio de la extracción automática de datos de páginas web que, todavía, no pertenecen a la web semántica ideal.