En otro artículo de nuestra wiki - Basic process of Webcrawling - describimos la metodología básica pare realizar webcrawling en base a una lista de keywords y URLs. En este artículo se describen varias problemáticas a superar a la hora de implementar un WebCralwer. Citamos una de ellas:
"de este proceso (crawling) surge el problema de que la cantidad de links crece de manera exponencial con cada generación y la relación de links útiles sobre links agregados cae de la misma forma. Para abordar el problema se opta por una selección óptima de links a explorar"
Existen diferentes tipos de factores que contribuyen a la exponencialidad del crecimiento de la lista de sitios a ser explorados por un webcrawler. Uno de ellos es la redundancia de las URLs en Internet.
Cuando un sitio es soportado por distintos webservers, mostrado desde otros sitios como un sub-sitio, o bien porque fue migrado hacia otro tipo de dominios, sucede la duplicidad o incluso multiplicidad de sitios homónimos que son apuntados desde distintas URLs. Este problema fue bautizado como DUST (polvo/tierra) por sus siglas en inglés (Different URLs with Similar Text) por investigadores del Instituto Israelí de Tecnología (Technion), en su paper "Do Not Crawl in the DUST: Different URLs with Similar Text".
Desafortunadamente, las DUSTs son muy frecuentes y su origen nace de la arquitectura redundante de la World Wide Web. Según los autores, nos encontramos en presencia de DUST cuando dos URLs distintas retornan el mismo contenido. Prueba testimonial de la frecuencia con que ocurre DUST, es el propio ejemplo que citan en su trabajo.
"For example, the URLs http://google.com/news and http://news.google.com return similar content."
El paper mencionado propone una metodología y algoritmos para encontrar URLs redundantes sin la necesidad de analizar el sitio e inclusive, dada una lista de URLs inferir cuáles serían las posibles DUSTs con las que el WebCrawler podría encontrarse. Dichas técnicas las DUST Rules y el algoritmo DustBuster. Mediante la implementación de dichas técnicas, los autores concluyeron que la eliminación de DUSTs, permite reducir en un 26% la sobrecarga del proceso de WebCrawling.
Referencias:
"Do not crawl in the DUST: Different URLs with similar text - Ziv B. Yossef, Idit Keidar, Uri Schonfeld
"Basic Process of web crawling", http://wiki.aigroup.com.ar/ci/opinion-mining/basic-process-of-webcrawling