Archivo Web

Nuestro tiempo no se entendería sin Internet

Según la página de la BNE el archivo web es:

"la colección formada por la recolección automatizada de fragmentos de la web. Un archivo web está compuesto por páginas y sitios web cuyos contenidos han sido concebidos para su publicación en redes de comunicación. La finalidad de un archivo web es la preservación y difusión de estos recursos “nacidos digitales” para que puedan servir como herramienta de conocimiento para generaciones presentes y futuras."

¿Por qué es importante el archivo web? Según Mugerza, en el Blog de la BNE:

"solemos zambullirnos en el océano de información que encontramos en Internet con despreocupación, dando por hecho que la información que está disponible hoy seguirá estándolo mañana. Y no es así."

Muguerza introduce el término "Digital Dark Age" (Edad Oscura digital), expresado literalmente por primera vez en 1997 por Terry Kuny, para describir una hipotética situación futura en la que podría ser difícil o imposible abrir y leer ciertos tipos de archivos digitales que habrían desaparecido para siempre del acervo de la Humanidad.

Los archivos web de mayor tamaño son recolectados y mantenidos por archivos y bibliotecas nacionales para preservar sus dominios nacionales con propósitos de patrimonio cultural o como parte de depósitos de derechos de autor. Otros archivos son llevados a cabo por universidades con objetivos educativos o de investigación y otras organizaciones locales o corporativas pueden querer archivar sitios o páginas precisas de acuerdo a sus intereses. Todos estos archivos recogen y mantienen los sitios web determinados por su rango de acción de la manera más fidedigna al original en el momento en que fue capturado, y mantienen su acceso para investigadores, estudiantes y el público en general.

Los primeros años de la “web” se han ido para siempre, pero al inicio de 1996 el Internet Archive comenzó a capturar instantáneas, proporcionándonos uno de los pocos registros de las primeras iteraciones de este mundo. Organizaciones como el International Internet Preservation Consortium están ayudando a unir a archivistas de la web desde todos los rincones del mundo y desde todas las disciplinas para compartir experiencias y buenas prácticas y forjar colaboraciones para ayudar a avanzar a estos esfuerzos tan necesarios. Al tiempo que nuestro mundo digital continúa creciendo a un ritmo sobrecogedor, mucha de nuestra vida diaria ocurre dentro de sus límites digitales, debemos asegurarnos de que los archivos web están ahí para preservar nuestra conciencia global colectiva para generaciones futuras.

Desde 2002-2003, se está haciendo un gran esfuerzo colectivo de desarrollo de herramientas en la comunidad de archivo web. La formación del IIPC y el comienzo de un conjunto de herramientas de código abierto incluyendo el rastreador de archivo web Heritrix fueron pasos importantes tomados por esa comunidad para asegurar que:

  • Todas las instituciones tuvieran las herramientas para desarrollar sus propias colecciones web y controlar la forma que tomaban.
  • Aproximaciones, métodos y vocabularios similares se extendieran por las instituciones del mundo del patrimonio para cumplir la misión de conservar la web.
  • Las colecciones se organizaran y almacenaran de manera compatible, para asegurar la interoperabilidad y el acceso cruzado en el futuro.

Cuando estos esfuerzos comenzaron, las tecnologías web estaban en una etapa en la que existían menos sitios dinámicos, no había vídeos por todas partes y el contenido web no deseado (spam) era poco común. En una sesión organizada por el IIPC, las tres dificultades mas importantes en el rastreo del archivo web fueron:

  • Diseño web avanzado (JavaScript, Flash, video, Ajax, etc.)
  • Spam/Traps
  • Streaming media.

Los rastreadores actuales no pueden capturar todo el contenido web, porque la web actual comprende mucho más que simples páginas HTML: páginas creadas dinámicamente, basadas en JavaScript o flash, contenido multimedia que se entrega utilizando protocolos de flujo de datos específico para el medio, contenido web oculto que reside en repositorios de datos y sistemas de gestión de contenido tras los portales de los sitios web. Los rastreadores también son incapaces de detectar y filtrar contenido no deseado.

LiWA fue más allá de la pura “congelación” de la captura del contenido web a largo plazo, transformando el almacenamiento de simples capturas en un archivo web “vivo”. “Vivo” se refiere a:

  • a) interpretabilidad a largo plazo a medida que los archivos evolucionan,
  • b) mejora de la fidelidad del archivo filtrando ruido irrelevante y
  • c) teniendo en cuenta una amplia variedad de contenido.

Vídeo de netpreserve.org "Web Archiving and the IIPC" donde se explica la necesidad del archivo web, la preocupación internacional por preservar este tipo de información y la necesidad de unir recursos y trabajar en red para llevar a cabo esta tarea titánica.

La posibilidad de archivar contenido artístico

Debido al rastreo y almacenamiento masivo y automatizado llevado a cabo por organizaciones como Internet Archive, se pueden encontrar capturas parciales de muchas obras de arte de Internet en diferentes momentos de su vida.

Como por ejemplo esta obra de intima llamada "What Was He Thiking About? Berlin? Praha? Ljubljana? Skophe?" parcialmente capturada en diferentes momentos desde 2002.

Por supuesto, el contenido de los sitios artísticos es de los más complicados de capturar debido a a la complejidad con que a menudo están compuestos y a que generan contenido de forma dinámica.

Requisitos mínimos para visualizar correctamente la obra de intima "What Was He Thiking About? Berlin? Praha? Ljubljana? Skophe?" que da una idea de su complejidad.

Pero las herramientas para archivar la web son cada vez más sofisticadas, necesitan menos supervisión humana y son más efectivas en cuanto a tiempo y costes.

La BNE comenzó en 2009 el archivo de la web española en la estela de otros proyectos comenzados anteriormente para archivar el patrimonio digital catalán y vasco (PADICAT 2005 y ONDARENET 2007). La Biblioteca Nacional realiza recolecciones masivas del dominio .es y recolecciones selectivas.

Las instituciones artísticas no pueden evadir su responsabilidad de conservar el patrimonio que atesoran, sea este físico, efímero, digital o de cualquier otra naturaleza. Es necesario crear protocolos y dilucidar las responsabilidades de cada profesional dentro de la institución para con este tipo de arte contemporáneo. Pero también es cierto que mientras seguimos la estela de archivos y bibliotecas (esas otras instituciones de la memoria) en la confección de flujos de trabajo y políticas de conservación digital; y por que no incluso después, las responsabilidades en cuanto al arte de Internet pueden solaparse.

Si las obras de arte de Internet se alojan o se enlazan al servidor de una institución dentro del dominio de archivo de una biblioteca nacional, su contenido podrá ser también archivado, conservado y en su caso recuperado del archivo web nacional.