Módulo 3: soluciones a los cuestionarios
Cuestionario
Como resultado de traducir en Apertium y en el Traductor de Google la frase "cambiaré la rueda del coche con el gato"
deducimos que Google lo hace mejor que Apertium.
los métodos estadísticos son mejores que los basados en reglas
"gato" es una palabra difícil
no siempre necesitamos una traducción perfecta con un estilo igualmente perfecto, con tener una idea aproximada de lo que dice en otra lengua nos basta
Las respuestas correctas son "gato" es una palabra difícil y "no siempre necesitamos una traducción perfecta..."
Como se ve tratando de traducir en uno y otro traductor, gato es una palabra que no siempre es posible traducir correctamente. Estadísticamente, gato como animal se usa mucho más. Google, en este caso, ha aprovechado mejor el contexto pero mira a ver qué pasa cuando traduces "Voy a cambiar la rueda usando el gato".
En cuanto a la otra respuesta correcta, y tal y como se menciona en el vídeo de la lección, efectivamente no siempre es necesaria la traducción perfecta. Dicho esto, sí hay ocasiones en los que la traducción fiel adquiere importancia como en documentos oficiales o mercantiles.
En ningún momento de nuestros vídeos y lecciones oirás que algo es mejor que algo. Como en muchas otras cosas, todo depende del cómo, cuándo y dónde. No se puede decir que un traductor lo hace mejor que otro salvo en un entorno controlado y en condiciones comparables. Hablando en general, el traductor de Google y Apertium funcionan razonablemente bien y, en muchos casos, muy bien.
Por lo mismo, decir que los métodos estadísticos son mejores que los basados en reglas no se sostiene. Son métodos diferentes y cada uno tiene sus ventajas e inconvenientes. El producto que se base en alguno de ellos, o en los dos, es el que debe aprovechar estas diferencias.
Cuestionario
Vamos a buscar la respuesta a una pregunta sencilla: ¿Cuánto recaudo en total La Guerra de las Galaxias, en euros? De la serie buena, la primera que se rodó pero que ahora es el episodio IV. Todos nos lanzaríamos a Google y preguntaríamos (recaudación total euros "La Guerra de las Galaxias"). Haz la consulta. ¿Serías capaz de darnos la respuesta exacta?
Ahora vamos a probar otra cosa.
¿Cuál es la recaudación total en euros de la película Star Wars (IV Una Nueva Esperanza)? La pregunta en inglés sería "star wars total receipts" porque posiblemente querrás utilizar WolframAlpha (http://www.wolframalpha.com). Cuidado, puede que no te dé directamente la respuesta a la película que queremos, puede que tengas que navegar un poco.
Redondea a la baja y responde solo con la parte entera. Por ejemplo, si la recaudación hubiera sido de 128.6 millones de dólares USA, responde con 100.
La recaudación total de esa película es de más 400 de millones de dólares US.
Un buscador de respuestas nos intenta devolver eso, respuestas concretas, en contraposición a un buscador de documentos como Google que nos ofrece textos en los que aparece ese dato pero que tenemos que encontrar nosotros. Sea casualidad o no, WolframAlpha asume que hablamos del episodio IV actual, la que originalmente se llamó, simplemente, "La Guerra de las Galaxias".
Cuestionario
Decide si la siguiente consulta es realmente geográfica (escribe "S") o no (escribe "N") y, en caso de que lo sea, identifica los tres componentes de la tupla. Si alguno de los componentes no tiene valor escribe "-".
"Shark Attacks off Australia and California"
Geográfica: S
Parte temática: Shark Attacks
Parte geográfica: Australia and California
Relación espacial: off
Decide si la siguiente consulta es realmente geográfica (escribe "S") o no (escribe "N") y, en caso de que lo sea, identifica los tres componentes de la tupla. Si alguno de los componentes no tiene valor escribe "-".
"Visits of the American president to Germany"
Geográfica: S
Parte temática: Visits of the American president
Parte geográfica: Germany
Relación espacial: to
Decide si la siguiente consulta es realmente geográfica (escribe "S") o no (escribe "N") y, en caso de que lo sea, identifica los tres componentes de la tupla. Si alguno de los componentes no tiene valor escribe "-".
"Cities near active volcanoes"
Geográfica: N
Parte temática: -
Parte geográfica: -
Relación espacial: -
En este ejercicio se trata de "trocear" la frase en sus partes, si es aplicable. Puesto que son frases muy sencillas y especialmente escogidas, el total de las palabras entra dentro de una u otra parte. Excepto el último ejemplo en el que la consulta no es geográfica —"volcanes activos no es ninguna localización concreta—. Por tanto, nada de la frase es aplicable a ninguna parte.
Cuestionario
El preprocesamiento offline en un sistema GIR
resume el conjunto de documentos disponible (podría ser la web “al completo”) en índices
quita de la consulta de un usuario (por ejemplo “quiero encontrar un hotel cerca de La Concha en San Sebastián”) todas las palabras inútiles para la búsqueda (como “quiero”)
sirve para cuando no se dispone de conexión a internet
Las respuestas correctas son "resume el conjunto de documentos disponibles..." y "quita de la consulta...".
Como se muestra en el vídeo de la lección, el procesamiento offline resulta en un índice textual con los términos relevantes para la consulta y otro con las referencias geográficas detectadas.
Durante la generación del índice textual se pueden aplicar varias herramientas, entre ellas la eliminación de las palabras vacías o sin valor para el proceso.
Cuestionario
Busca "Collado Villalba" en Geonames (http://www.geonames.org/)
lo etiqueta como "zona"
lo clasifica como "población" o "ciudad"
aparte, nos muestra información sobre lugares o negocios cercanos a la localidad.
Las respuestas correctas son "lo clasifica como población o ciudad" y "aparte, nos muestra información sobre lugares o negocios cercanos a la localidad
Efectivamente, Geonames nos devuelve, como resultado de la consulta, "populated place": una ciudad, un pueblo, etc. La consulta devuelve tanto información sobre la localidad como puntos geográficos relevantes.