2.6.1. Recuperación y evaluación Web
2.61. Caracterización y etapas
2.6.2. El proceso de la recuperación en entornos informáticos
2.6.3. Buscadores generales (directorios, motores de búsqueda, Google)
2.6.4. Internet
2.6.5. Redes semánticas
Los directorios son recursos de información que categorizan ésta jerárquicamente y de forma manual, pero que permiten su consulta de forma automatizada. Permiten la navegación mediante hiperenlaces. Organizan la información de forma temática y subtemática, sobre los que actúa un buscador que localiza terminos. El ejemplo por excelencia es Yahoo (Universidad de Stanford), cuyo sistema ha desarrollado versiones nacionales y las 14 categorías temáticas originarias.
Los directorios generan sus índices mediante captura pasiva (los webmasters envían información a través de formularios y sugieren que se indice su sitio) y captura activa (el directorio busca direcsiones para cubrir las categorías que ha generado). En Ciencia y Tecnologías, se procura no incorporar referencias comerciales o de calidad dudosa. En la actualidad, muchos de estos directorios forman parte de un portal de servicios y noticias, o han sido comprados por empresas de soluciones informáticas. El incremento exponencial de la información ha hecho poco eficaz este sistema, que se ha reconvertido mediante directorios muy especializados en red (webrings).
[Lectura: ¿Sabes qué ocurrió con Yahoo y Google? Lee este artículo sobre el cambio de un buscador por otro, cuando Yahoo no compró a Google ni Facebook. Si te animas, puedes seguir en la tercera temporada de Halt and Catch Fire la evolución por poner orden en internet a través de varios modelos de buscadores.]
Un motor de búsqueda es un sistema informático que localiza información albergada en servidores web. La búsqueda se realiza de manera automática mediante indexación. En su funcionamiento se combinan tres tipos de programa:
Un conjunto de programas robot llamados «arañas» (spiders o googlebots) recorren los hiperenlaces y recopilan la información en las bases de datos del buscador.
Otros programas clasifican esa información por su relevancia y mediante palabras clave. Se trata de sistemas de indexación, que extraen las palabras de las páginas web visitadas. Unos buscadores (AltaVista, Google, Hotbot, etc.) indexan todo el texto; otros (Galaxi, Nordic), sólo los títulos de las páginas. Esta es una de las principales razones de las diferencias de resultados en las búsquedas.
Un tercer tipo de programas explotan las bases de datos, respondiendo a las consultas. El resultado de una consulta es una lista de direcciones web mostradas por orden de relevancia (mayor enlazamiento) o por temas. Esta lista es mayor que las realizadas de forma manual en los directorios.
Los primeros buscadores (Wandez, Inktomi, Excite, Infoseek o Northern Light) tuvieron que competir con los directorios para convertirse en el acceso preferido a la web. En la actualidad, han dejado paso a motores de búsqueda de algoritmo complejo (Google, MSN Search, AltaVista, Hotbot, GlowBoom), se han fusionado con los directorios o se han convertido en metabuscadores (Metacrawler), en busca de mejores resultados.
Google se ha convertido desde 2001 en la referencia gracias a un motor de búsqueda muy eficaz y veloz, una interfaz sobria (muy imitada), al sistema PageRank de clasificación, incluido en su barra de navegación, y a una innovación continua. La otra referencia actual, Yahoo, ha desarrollado su buscador en 2004 para mejorar su directorio. Microsoft ha desarrollado desde 2004 msnbot para competir con los anteriores. Para las lenguas italiana y española, cabe tener en cuenta Virgilio. En español contamos con el motor de búsqueda de Combios Trovator, que cuenta con un sistema de búsqueda en enciclopedias electrónicas y un sistema de canales temáticos. En general, el resto de competidores se orienta hacia la metabúsqueda.
[Práctica. Conoce el Funcionamiento de la Búsqueda de Google
Utiliza Google en 1998. Intenta buscar una palabra y compara con lo que encuentra hoy el buscador. Conoce el desarrollo de este motor de búsqueda en su Timeline.]
Esta pregunta resulta fundamental, ya que un lector solo lee algunos de los primeros enlaces de entre los millones que se le ofrecen. De hecho, cada motor de búsqueda ordena de forma diferente. En el caso de Google, la base de su éxito radica en cómo ofrece una información muy completa y ordenada de forma relevante («lo que necesitas»), mediante el una combinación de 200 indicios junto con el sistema PageRank:
«[...] PageRank realiza una medición objetiva de la importancia que tienen las páginas web. Para ello, resuelve una ecuación que contiene más de 500 millones de variables y 2.000 millones de términos. En lugar de contar los vínculos directos, PageRank interpreta un vínculo de la Página A a la Página B como un voto que recibe la Página B de parte de la Página A. PageRank evalúa, de esa manera, la importancia que tiene una página determinada al contar la cantidad de votos que recibe. PageRank también considera la importancia de cada página que emite un voto.»
[Práctica: Busca un autor de tu preferencia en Gooyaglehoo y compara el orden de las entradas. Visita Google y descubre Visión de Google . Lee atentamente su idea de la tecnología de búsqueda:
¿Cómo ayuda a posicionar webs? https://support.google.com/webmasters/community?hl=es
SEO: https://developers.google.com/search/docs/beginner/seo-starter-guide ]
[Práctica: Busca un autor de tu preferencia en Gooyaglehoo y compara el orden de las entradas. Visita la Visión de Google y lee atentamente su idea de la tecnología de búsqueda.]
Otros motores
Para alcanzar más información, o más fiable, es posible configurar la lengua natural del motor de búsqueda o incluso emplear motores de búsqueda selectivos. Algunos ejemplos por lenguas:
Algunos ejemplos por acceso a sitios de calidad:
Teoma http://www.teoma.com
Highbeam http://www.highbeam.com
Por otra parte, existe un flujo de acceso restringido en continua evolución. La Darknet esta constituida por la información que desea permanecer oculta, ya por pertenecer a un ámbito restringido (bases de datos de empresas e instituciones), ya por constituir información que desea no ser encontrada por las instituciones y fuerzas policiales, ya por fluir a través de las redes no oficiales creadas a partir del P2P (la tecnología y servicios de intercambio de información entre particulares). Los usuarios y la ciberdelincuencia que desean acceder con seguridad a la deep web y de forma irrastreable, emplean programas como Tor, basados en las capas de una cebolla.
Algunos programas como emule o el protocolo bittorrent se han hecho familiares y de uso cotidiano para parte de la población. La Darknet, en este sentido, es una manifestación de prácticas sociales anticomerciales que incluyen actividades de manipulación, creación y distribución de contenidos digitales ajenas o contrarias a los estándares del mercado. Su objeto es realizar intercambios sin ser detectados. El caso extremo es su uso warez [la «z» equivale a «uso pirata»], es decir, la distribución que incurre en prácticas de piratería o abuso de copyright, normalmente a través de protocolos FTP, FXP y P2P. La Darknet implantada mediante redes sociales ha derivado en una difusa cuarta versión de internet, la denominada Web 2.0. Sus características son: emplear internet como plataforma global, tener una arquitectura de datos y servicios contributiva, los usuarios comparten información y creatividad, los documentos tienden a ser hipermedia y los programas se renuevan continuamente con interfaces más interactivas.
Se llama así a la información en permanente crecimiento y modificacion, cuyo acceso no siempre es fácil o posible. Los términos «internet invisible» o «internet profunda» indican precisamente su inaccesibilidad mediante los sistemas de búsqueda convencionalmente empleados. Las estimaciones fluctúan al evaluar la zona invisible entre el 80 % del total o unas quinientas veces de la accesible. Una de las razones de esta invisibilidad es que muchas bases de datos sólo muestran sus datos cuando se les interroga, mediante la creación de páginas dinámicas que desaparecen tras la consulta. Los robots de búsqueda, llamados arañas (web bots) buscan saltando a través de los hiperenlaces, pero no profundizan en los sitios ni alcanzan muchos otros y, por tanto, son incapaces de indizar estas páginas.
Existen varios tipos de internet: hasta cinco niveles aprecian algunos investigadores. Según Ricardo Fornás, tenemos tres claramente diferenciables:
Internet global. Una red general de acceso libre.
Internet invisible (deep web). Contenidos accesibles pero de acceso difícil.
Internet oscura (dark internet). Información inaccesible desde un ordenador.debido a que es de acceso restringido debido a motivos de seguridad.
[Práctica: lee este artículo sobre La internet que no ves.]
Dentro de la internet invisible, los datos dinámicos son especialmente refractarios a su localización y sus accesos quedan obsoletos en brevísimo plazo. DARPA ha creado nuevos buscadores como MEMEX que permitan conocer el contenido real de la web. Se piensa en esta como un enorme iceberg, cuyo contenido de difícil acceso llega a ser 500 veces más grandes que el indizado por los motores de búsqueda. Por otra parte, la red (World Wide Web) es sólo una parte de internet, que consta de protocolos (FTP), correos electrónicos, grupos, chats (IRC), etc. El fenómeno es muy acusado en áreas especializadas:
OPAC y bases bibliográficas.
Bases de datos de instituciones especializadas. Formatos no indizables (generados por Flash, ASP, PHP, etc.).
Revistas electrónicas y literatura gris digital de acceso restringido.
Bases de datos de prensa.
Listas de distribución y grupos cerrados.
Obras de referencia (diccionarios, enciclopedias) de consulta dinámica.
La mejor solución para acceder a la información especializada es mediante repertorios temáticos realizados por especialistas, especialmente mediante directorios especializados y bibliotecas virtuales. Incluso accediendo a datos suficientes, los resultados no ofrecen y clasifican siempre los datos más relevantes, sino solo los más visibles.
[Práctica: echa un vistazo a este reportaje sobre la Web 2.0 en The Guardian y visita un par de productos sociales: Lastfm y la wikipedia].
Librarian Indexing to the Internet http://lii.org
Archive http://www.archive.org/index.php
SOSIG http://www.sosig.ac.uk
Humbul http://www.humbul.ac.uk
BUBL http://bubl.ac.uk
Scirus http://www.scirus.com
Search4Science http://www.search4science.com
Drugs http://www.drugs.com/
En imágenes: Google Images (http://images.google.com)
Compras: Dealtime (http://www.dealtime.com); Froogle (http://www.froogle.com)
Sherpa Romeo (directorio de revistas de libre acceso): http://www.sherpa.ac.uk/romeo/
CogTrans Search http://www.cogtrans.net/buscador.htm
[Prácticas. Prueba a buscar documentos sobre Traducción en Interpretación en CogTrans Search y compara con el resultado en otros motores de búsqueda. Prueba los motores especializados de Google para comparar vuelos y reservas de hoteles. Describe sus ventajas con respecto a Logitravel o eDreams.]
Searchenginewatch http://www.searchenginewatch.com/links
Buscopio http://www.buscopio.net
Yahoo buscadores: http://dir.yahoo.com/Computers...
La búsqueda de archivos multimedia especializados es uno de los servicios con mayor crecimiento. Hasta hace poco, los buscadores ofrecían una clasificación alfabética de los enlaces donde se encontraban almacenados estos archivos. En la actualidad, los buscadores de archivos sonoros ofrecen escucha (streamer) y descarga directa del contenido, e incluso visualización del vídeo correspondiente. Algunos han sido cerrados, como Listengo, Mucelli, etc., pero surgen de continuo nuevas alternativas. La gestión de muchos de estos contenidos puede violar derechos. A continuación se relacionan algunos entre los más usuales.
Internet ofrece la posibilidad de ver vídeos y televisión. En vídeos, YouTube ha constituido una revolución audiovisual en la red, a la que se han sumado canales similares, como Vimeo, y grandes sistemas de almacenamiento, como Megaupload o Videobb, cuyo mal uso puede violar en ocasiones los derechos de copia.
En cuanto a la TV y la radio, internet ofrece una enorme oferta para acceder a centenares de canales en numerosos idiomas (6.000 en ContentStock; 900 en Medinalia), organizados habitualmente como directorios temáticos. Algunos programas, como Joost o SopCast, funcionan mediante P2P para compartir el mayor ancho de banda posible y obtener una mayor resolución, aunque la demanda suele saturarlos.