2.6. Recuperación y evaluación Web
2.61. Caracterización y etapas
2.6.2. El proceso de la recuperación en entornos informáticos
2.6.3. Buscadores generales (directorios, motores de búsqueda, Google)
2.6.4. Internet
2.6.5. Redes semánticas
Definición. La recuperación de información (Information retrieval [IR], en inglés) es la ciencia que estudia la búsqueda y extracción de información dentro de una colección de documentos, la búsqueda de esos documentos, los metadatos que los describan, así como la búsqueda en bases de datos en general. Se trata de una disciplina a caballo entre la lingüística, la informática y las ciencias de la información. Su objetivo es satisfacer la necesidad de información de un usuario, que se suele expresar en una lengua natural.
La recuperación de información está relacionada con la representación, almacenamiento, organización y acceso a los datos. Cuando se emplean Sistemas de Recuperación de Información para alcanzarlos dentro de bases de datos, el empleo de la lengua natural genera problemas de silencio (debido a la sinonimia), ruido (debido a la polisemia), homografía y ambigüedades (debido a la imprecisión). Para solucionarlo, se emplean lenguajes controlados y preguntas con dos o más terminos.
[Práctica. Echa un vistazo al respecto a esta entrevista con Antonio Valderrábanos]
Desde el punto de vista del usuario, la recuperación de información es el conjunto de tareas mediante las cuales localiza y accede a los recursos de información que son pertinentes para la resolución del problema informativo planteado (necesidad de acceso a una determinada información, y sólo a esa). La cadena documental posee varias etapas (producción de la información=> configuración del documento y almacenamiento=> distribución=> recuperación). Una vez producido e indizado, un documento se almacena en una Base de Datos. La indización permite condensar el contenido de un documento como conceptos (palabras clave). La recuperación de un documento es, por tanto, la operación inversa de la indización.
Una Base de Datos (BD) es un conjunto de referencias almacenadas electrónicamente y estructuradas de forma que puedan ser recuperadas de manera automática. Cuando se trata de almacenamiento de referencias de publicaciones (seriadas o individuales) hablamos de BD bibliográficas.
Las etapas de un proceso de RI son las siguientes:
Con respecto a las búsquedas en soporte papel, las búsquedas en entornos informáticos incorporan el problema de la traslación desde el lengua documental al lenguaje de interrogación del SRI, que emplea ecuaciones, así como nuevas fases:
- Entrevista.
- Traducción al lenguaje documental.
- Del lenguaje documental al lenguaje de interrogación del sistema.
Definición. Un lenguaje de interrogación es un conjunto de órdenes, operadores y estructuras que, organizado según unas normas lógicas, permite la consulta de fuentes y recursos de información electrónica. El resultado de la combinación de estos elementos, siguiendo las normas establecidas, es una sentencia, a la que se identifica con el nombre «ecuación», capaz de interrogar el contenido de la fuente de información.
Operadores booleanos
Empleados en español o en inglés, según el SRI, los operadores booleanos permiten seleccionar conceptos semejantes, excluyendo los no deseados. Son tres:
Y (and) Producto. Representa la intersección de dos conjuntos. Los registros seleccionados serán sólo aquellos que tienen los dos conceptos en común seleccionados.
O (or) Suma. Representa la unión de dos conjuntos. Los registros seleccionados contienen al menos uno de los conceptos seleccionados.
NO (not) Resta. Representa la diferencia de dos conjuntos. Los registros seleccionados contienen al menos uno de los conceptos seleccionados. Los registros seleccionados son los que resultan de restar un conjunto al otro.
Operadores de proximidad
Son partes de la sentencia de búsqueda que aluden a ciertos campos que tienen un número reducido de valores. Se emplean para delimitar el rango de búsquedas y son necesarios para recuperar en un determinado orden aquellos documentos que contengan intersecciones de conceptos. Existen tres básicos:
- Adyacencia simple <cerca>
- Adyacencia con grados de libertad <cercaN>
- Coincidencia en un mismo campo o frase <adj>
Cada motor de búsqueda puede emplear sus propios operadores e incluso no emplearlos. Realiza una práctica con los seis operadores de proximidad del buscador de la UPF.
Anidamiento
Cuando en una ecuación de búsqueda se utilizan varios operadores, siempre existe un orden de prelación:
- Proximidad
- Intersección
- Negación
- Unión
Truncamientos
Consiste en utilizar un carácter establecido al efecto por el SRI para que, escribiendo sólo una parte de un término de búsqueda, se recuperen todos los documentos en los que aparece la raíz de dicho término (p. ej., arago* nos devuelve Aragón, aragonés, aragonesa, aragonesismo, etc.). Existen varios tipos de truncamiento. Según el número de caracteres sustituido (? un caracter o niguno; * una cadena de caracteres; $, & el final de un término). Según el lugar en que se sutituye:
- Truncamiento por la derecha (sufijo)
- Truncamiento por la izquierda (prefijo)
- Truncamiento en el interior de la palabra (infijo)
Búsqueda en campos
La división del registro en campos, permite realizar búsquedas por secciones, o bien, considerar el conjunto de campos como un todo y buscar en todo el registro. Los campos mínimos de una BD de carácter bibliográfico son:
TI: Título IN: Índice AU: Autor LA: Idioma (Language)
SO: Fuente (Source) AB: Resumen (Abstract)
Todos estos campos pueden combinarse con unos límites (limits),mediante el empleo de las opciones desplegables que aparecen en la pantalla.
[Ejercicios: búsquedas en la Agencia Española del ISBN]
Hipertexto
Permite realizar encadenamientos entre documentos a partir de elementos comunes. Es un recurso de navegación y de acceso directo a un documento. En la actualidad, algunos programas permiten almacenar una lectura navegada y repetirla más adelante.
Ordenación
Una vez obtenido un conjunto documental a partir de una ecuación, es posible proceder a su ordenación. Por defecto, suele ser sobre el campo de fecha con criterio descendente, pero esto se puede alterar. Se puede, incluso, hacer sobre varios campos al mismo tiempo.
Resulta conveniente conocer y explota los recursos de búsqueda de los motores: