2.6.1. Recuperación y evaluación Web
2.61. Caracterización y etapas
2.6.2. El proceso de la recuperación en entornos informáticos
2.6.3. Buscadores generales (directorios, motores de búsqueda, Google)
2.6.4. Internet
2.6.5. Redes semánticas
Los directorios son recursos de información que categorizan esta jerárquicamente y de forma manual, pero que permiten su consulta de forma automatizada. Organizan la información de forma temática y subtemática. Facilitan la navegación mediante hiperenlaces, sobre los que actúa un buscador que localiza terminos. El ejemplo por excelencia fue Yahoo (Universidad de Stanford), cuyo sistema desarrolló versiones nacionales y las 14 categorías temáticas originarias.
Los directorios generan sus índices mediante captura pasiva (los webmasters envían información a través de formularios y sugieren que se indice su sitio) y captura activa (el directorio busca direcciones para cubrir las categorías que ha generado). En Ciencia y Tecnologías, se procura no incorporar referencias comerciales o de calidad dudosa. En la actualidad, muchos de estos directorios forman parte de un portal de servicios y noticias, o han sido comprados por empresas de soluciones informáticas. El incremento exponencial de la información ha hecho poco eficaz este sistema, que se ha reconvertido mediante directorios muy especializados en red (webrings).
Un motor de búsqueda es un sistema informático que localiza información albergada en servidores web. La búsqueda se realiza de manera automática mediante indexación. En su funcionamiento se combinan tres tipos de programa:
Un conjunto de programas robot llamados «arañas» (spiders o googlebots) recorren los hiperenlaces y recopilan la información en las bases de datos del buscador.
Otros programas clasifican esa información por su relevancia y mediante palabras clave. Se trata de sistemas de indexación, que extraen las palabras de las páginas web visitadas. Unos buscadores (AltaVista, Google, Hotbot, etc.) indexan todo el texto; otros (Galaxi, Nordic), sólo los títulos de las páginas. Esta es una de las principales razones de las diferencias de resultados en las búsquedas.
Un tercer tipo de programas explotan las bases de datos, respondiendo a las consultas. El resultado de una consulta es una lista de direcciones web mostradas por orden de relevancia (mayor enlazamiento) o por temas. Esta lista es mayor que las realizadas de forma manual en los directorios.
Los primeros buscadores (Wandez, Inktomi, Excite, Infoseek o Northern Light) tuvieron que competir con los directorios para convertirse en el acceso preferido a la web. En la actualidad, han dejado paso a motores de búsqueda de algoritmo complejo (Google, MSN Search - actual Bing, AltaVista, Hotbot, GlowBoom), se han fusionado con los directorios o se han convertido en metabuscadores (Metacrawler), en busca de mejores resultados.
Google se ha convertido desde 2001 en la referencia gracias a un motor de búsqueda muy eficaz y veloz, una interfaz sobria (muy imitada), al sistema PageRank de clasificación, incluido en su anterior barra de navegación e incrustado en su algoritmo, y a una innovación continua. En la actualidad, debido al intenso consumo audiovisual, Youtube se ha convertido en el segundo buscador occidental. La otra referencia superviviente, Yahoo, desarrolló su motor de búsqueda en 2004 para mejorar su directorio, que acabó desapareciendo al crecer internet. Microsoft ha desarrollado desde 2004 Msnbot (actualmente BING) para competir con los anteriores. Para las lenguas italiana y española, cabe tener en cuenta Virgilio. Durante algún tiempo contamos en español con el motor de búsqueda de Combios Trovator, con un sistema de búsqueda en enciclopedias electrónicas y un sistema de canales temáticos. En el ámbito oriental, destacan grandes buscadores como Baidú (百度一下,你就知道) o Yandex en Rusia. En general, el resto de competidores se orienta hacia la metabúsqueda y muchos buscadores beben y filtran las búsquedas de los grandes motores, en lugar de construir bases de datos propias. Por último, de forma paulatina, a los anteriores se han ido incorporando proveedores de contenido (facebook, instagram, netflix) basados en el consumo de información previo.
Esta pregunta resulta fundamental, ya que un lector solo lee algunos de los primeros enlaces de entre los millones que se le ofrecen. De hecho, cada motor de búsqueda ordena de forma diferente. En el caso de Google, la base de su éxito radica en cómo ofrece una información muy completa y ordenada de forma relevante («lo que necesitas»), mediante el una combinación de 200 indicios junto con el sistema PageRank:
«[...] PageRank realiza una medición objetiva de la importancia que tienen las páginas web. Para ello, resuelve una ecuación que contiene más de 500 millones de variables y 2.000 millones de términos. En lugar de contar los vínculos directos, PageRank interpreta un vínculo de la Página A a la Página B como un voto que recibe la Página B de parte de la Página A. PageRank evalúa, de esa manera, la importancia que tiene una página determinada al contar la cantidad de votos que recibe. PageRank también considera la importancia de cada página que emite un voto.»
Práctica: Busca un autor de tu preferencia en Gooyaglehoo y compara el orden de las entradas. Visita Google y descubre Visión de Google . Lee atentamente su idea de la tecnología de búsqueda:
¿Cómo ayuda a posicionar webs? https://support.google.com/webmasters/community?hl=es
SEO: https://developers.google.com/search/docs/beginner/seo-starter-guide
Compara los resultados en Google y Baidu de unas mismas palabras clave. ¿Van más allá de la cuestión lingüística? Lee este artículo al respecto.
Lecturas
» Conoce el Funcionamiento de la Búsqueda de Google.
» Burbuja de filtro: ¿por qué usar con prudencia el motor de búsqueda google?
» ¿Sabes qué ocurrió con Yahoo y Google? Lee este artículo sobre el cambio de un buscador por otro, cuando Yahoo no compró a Google ni Facebook.
Prácticas
Utiliza Google en 1998. Intenta buscar una palabra y compara con lo que encuentra hoy el buscador. Conoce el desarrollo de este motor de búsqueda en su Timeline.
Comprueba si Google maps rastrea tu localización a lo largo del tiempo.
Si te animas, puedes seguir en la tercera temporada de Halt and Catch Fire los ensayos y la evolución por poner orden en internet a través de varios modelos de buscadores.
Prácticas
Busca un autor de tu preferencia en Gooyaglehoo y compara el orden de las entradas. Visita la Visión de Google y lee atentamente su idea de la tecnología de búsqueda.
¿Es posible usar otros motores?
Para alcanzar más información, más fiable o especializada, es posible configurar la lengua natural del motor de búsqueda o incluso emplear motores de búsqueda selectivos. También existen buscadores con otros fines. Haz prácticas de búsqueda con algunos de los siguientes.
Ejemplos de mejora de la privacidad: Duck Duck Go - Ecosia - Qwant, Disconnect Search - Metager, etc. Estos otros suelen funcionar como metabuscadores basados en google y bing, peor prometiendo no rastrear tus preferencias.
Ejemplos con acceso a sitios de calidad: Ask - Teoma - Highbeam
Plataformas comerciales. Emplean buscadores integrados en sus bases de datos, que aprenden de nuestras decisiones. Realiza búsquedas de útiles de jardinería o de ropa en Alibaba o Amazon Prime; localiza en Idealista un ático de más de 90 m2 en el centro de Alcalá de Henares. Navega los productos/viviendas relacionados que te ofrecen. ¿Sabías de las denuncias contra alguna de estas plataformas por monopolio o malas prácticas?
Búsquedas turísticas. Los buscadores de hoteles, vuelos y viajes se han convertido en uno de los sectores especializados con un mayor número de recursos. Encuentra el vuelo en julio a Corfú más barato y con menos escalas. Emplea G. Flights para organizarlo y encontrar alternativas baratas de viajes a Grecia. Maneja la web de Booking y localiza las guías turísticas de ciudades como Barcelona o Rennes.
DEEP y DARK WEB - ¿Por qué algunos buscadores son directorios? Algunos ejemplos de Dark Sites y una introducción a cómo realizar búsquedas. Plantéate antes abrir un correo privado si vas a ponerte a ello: ProtonMail - Caja de TOR - Bitmessage - Lelantos (de pago) - Mail2Tor.