Archivando el 15M


11/06/2012:
15M.cc es un proyecto transmedia, iniciado por Pablo Soto, Stéphane M. Grueso y Patricia Horrillo, con la finalidad de hacer un documental, una web y un libro sobre el 15M. La coordinación del libro, que originalmente era cosa de Pablo Soto, tuvo que pasarse a Patricia Horrillo porque Pablo no tenía tiempo suficiente para encargarse de él. Patricia creó un índice de los capítulos que deberían componer el libro, usando una hoja de cálculo de Google (cosa poco usable).

A mí, que me gusta usar MediaWiki para todo, contacté por e-mail con Patricia, Pablo y Stéphane (los coordinadores de 15M.cc) para indicarles que un wiki era lo más apropiado para redactar el libro de 15M.cc. Patricia me respondió que sí, que un amigo (Valentín) le había sugerido usar un wiki para el libro. Entonces, Miguel Ángel (mangelrp) y yo, nos ofrecimos a montar un MediaWiki en los servidores de 15M.cc y echar a andar el wikilibro. A la gente de 15M.cc les pareció bien y nos dieron acceso al servidor para que nos encargaramos nosotros dos.

Pero mientras hacíamos esto, tuve la idea de que ya que estabamos montando el wiki, podríamos usarlo mejor para hacer una «Enciclopedia del 15M».


Le conté inmediatamente a Miguel Ángel la idea de la enciclopedia (y envié un correo a la gente de 15M.cc). Reproduzco el e-mail que les mandé el 29 de mayo a eso de las 20:00, con lo que tenía en mente sobre cómo llevar a cabo este nuevo proyecto y cómo debía funcionar:

Hola;

Estaba pensando hace un rato en el wiki y se me ha ocurrido que podría usarse mejor como una «Enciclopedia del 15m» y que el wikilibro sea solamente una sección dentro de la enciclopedia.

Habría que establecer algunos límites y pilares, a semejanza de Wikipedia:
  • Verificalibilidad: todo lo que se escriba en la enciclopedia debe estar apoyado por referencias (generalmente de medios de comunicación, aunque esto puede suponer problemas a la hora de apoyar afirmaciones que todos sabemos son ciertas pero los medios sesgan u omiten publicar).
  • Notabilidad: en Wikipedia no se permiten artículos para cada una de las manifestaciones o proyectos como 15MpaRato, pero en la Enciclopedia del 15M todo eso sería admitido.
  • Punto de vista neutral: deberá presentar datos de todas las partes, todos los puntos de vista relevantes, y que el lector decida. Por ejemplo, en las cifras de manifestantes poner los datos de la policía y las de los organizadores.
  • Tendría licencia libre.
La enciclopedia podría usar las fotos y demás material del banco de ideas. Y usaría el típico lenguaje enciclopédico, no el que podamos usar en blogs o redes sociales.

Decidme qué os parece.

Saludos

Le dije a Miguel Ángel que registrase www.enciclopedia15m.org, a menos que se nos ocurriera otro nombre mejor.
A él inmediatamente se le ocurrió el nombre 15Mpedia.org, que salta a la vista que tiene más gancho. Tras unos minutos pensando en si se nos ocurría un nombre todavía mejor, cosa que no sucedió, Miguel Ángel registró el dominio 15Mpedia.org.

Y así fue como surgió 15Mpedia.

Luego vinieron unos días de trabajo, creando las plantillas y estructuras básicas para los contenidos de la enciclopedia. 15Mpedia se presentó al público el 6 de junio de 2012 durante el quinto encuentro del grupo de trabajo de 15M.cc (a partir del minuto 28 se habla de la enciclopedia). Desde entonces ha salido en medios como Público, El País, FayerWayer y Barrapunto y ha tenido buena acogida.

01/05/2012: Creo la colección Spanish Revolution en Internet Archive, y empiezo a meter contenido. La explicación de porqué uso esta colección y no la del Centro de Documentación Ciudadana del 15M (que está abandonada), es que la gente de Internet Archive prefería crearme una nueva colección en vez de hacerme administrador en la antigua.

15/12/2011: La gente del CD15M me manda algunos enlaces más sobre proyectos para archivar tanto el 15M como el movimiento Occupy: Data mining for instant history (webcite), Occupy Wall Street! Archives (webcite), Occupy.Net wiki (webcite), The Occupy Wall Street An-Archives! (webcite), Occupy History (webcite) | Ampliada a más de 900 URLs la lista de webs relacionadas con el 15M | Publico lista con todas las imágenes en Wikimedia Commons (descripción) (url directa)

11/12/2011: Después de contactar con el CD15M en su lista de correo, me he puesto a generar listas de recursos para que las agreguen a la colección de Archive-It. La primera contiene unos 600 blogs y webs | He encontrado este truco para sumar las duraciones de todos los vídeos de un directorio (webcite) y me sale que tengo 668 horas de vídeo sobre el 15M (unos 27 días).

 08/12/2011: Bravo, acabo de encontrar una colección en Internet Archive dedicada al movimiento 15M (y otra en Archive-It), después de bucear un rato por la red e ir saltando de web en web. No tiene apenas contenido, pero veré cómo ayudar. Entre los posts presentes y pasados que he visto sobre archivar el 15M (no hay muchos la verdad) están los siguientes: El 15M y la creación del Archivo de la Plaza del Sol (webcite), V de Preservación para las acampadas (webcite), Mi verdad sobre el archivo del 15M (webcite), Centro de documentación ciudadana sobre el #15M inicia su andadura en Internet (webcite), Documentos 15-M (webcite), Centro de documentación 15M (webcite), Archivo de recursos digitales #spanishrevolution actualizado hasta el 1 de junio (webcite). Y donde se intenta coordinar el trabajo, el Wiki CD15M y la Lista de correo de CD15M.

07/12/2011: Internet Archive lanza una petición (webcite) de sugerencias de webs, videos, imágenes y material relacionado con el movimiento Occupy de Estados Unidos para archivarlos en una colección con Archive-It. Curiosamente no dicen nada de la Spanish Revolution o la Primavera Árabe, que fueron los orígenes del Occupy.

02/12/2011: Hecho el cálculo exacto, recorriendo con un script cada URL de los vídeos bajados, ya han sido borrados de YouTube 250 de 6584 (un 3.79%). Lo malo es que esta cifra solo puede subir conforme pase el tiempo. Debería buscar algún sitio donde compartir los vídeos, pero se necesita bastante ancho de banda para subir tanto.

01/12/2011: Hace tiempo que no pongo a descargar más vídeos (debería retomarlo), pero la última vez que lo hice iba ya por los 6000 vídeos y más de 200 GB. Haciendo un experimento sobre cuántos vídeos de los que me he descargado han sido luego borrados de YouTube, sale entorno al 3%. Es decir, de esos 6000 vídeos, ya no estarían disponibles unos 180.

16/06/2011: Superados ya los 120 GB de vídeos de las acampadas, algunos tan inspiradores como este.

06/06/2011: Ya van bajados más de 2000 vídeos de las acampadas. Ayer me entretuve haciendo un vídeo que los contiene a todos (ver en YouTube) | El 15M y la creación del Archivo de la Plaza del Sol (webcite)

30/05/2011: Llevo bajados unos 500 vídeos solamente (del total de +4000 que encontré) y ya suman 15 GB. La estimación que hice de 10MB por cada vídeo es baja. Sería más bien de 30MB/vídeo, por lo que los +4000 vídeos serían +100GB.

Como ya sabeis, me gusta conservar la memoria de todo lo que sucede. Días antes de leer la noticia "El disco duro de Sol" en El País ya había estado bajando imágenes de Twitpic con un pequeño script, pero al ver el esfuerzo que estaban haciendo, decidí dedicarle algo más de tiempo e intentar bajar también los vídeos.

Descargando vídeos


Aprovechando el
script youtube-dl que hace posible bajar vídeos de YouTube y otros hostings, me preparé uno para generar una lista de enlaces con la que alimentar a youtube-dl.

El invento se compone de dos fases, primero
ejecutar el script en la shell para sacar la lista de enlaces a vídeos de YouTube, y una segunda parte en la que verdaderamente se bajan los vídeos. De modo que se haría de la siguiente forma:
  1. Nos bajamos el generador de enlaces y lo guardamos con cualquier nombre
  2. Le damos permisos de ejecución: chmod +x filename
  3. Lo ejecutamos: ./filename
  4. Ya tenemos la lista de enlaces en youtubelinks, miramos cuántos enlaces hay si queremos, por ejemplo con: wc -l youtubelinks
  5. Partimos la lista de enlaces en varias listas más pequeñas para bajar en paralelo: split youtubelinks -l1000. (En este caso de 1000 en 1000, puedes elegir otro número)
  6. Ahora pasamos a bajar los vídeos: python youtube-dl -a youtubelinks -t -c -i. (Si separaste la lista en varias sublistas, escribe -a xaa, que es el nombre que da por defecto el comando split a la primera sublista. Luego abre otra terminal y llama a youtube-dl con -a xab, luego -a xac, y así con todas...)
  7. La opción -a carga los enlaces del fichero youtubelinks, -t guarda los vídeos usando el título en YouTube, -c continua bajando vídeos que quedaron incompletos y -i ignora errores (por ejemplo vídeos borrados después de que generases la lista). Para otras opciones ver python youtube-dl --help
Para los que hayan curioseado el código: Las búsquedas en YouTube no permiten ir más allá de la página 50, así que he puesto ese límite para cada tag de búsqueda (puedes añadir otros si quieres).

El listado que salió hace unas horas cuando lo ejecuté fue de
4251 vídeos. Puedes usar esa lista o generar la tuya propia con el paso 3. Teniendo en cuenta que los vídeos suelen tener unos 10 megas, necesitarás al menos 40 gigas para bajarlos todos, aunque esta cifra sube cada día conforme la gente comparte más vídeos.

Descargando imágenes


Y aquí está el
script para bajarse las imágenes de Twitpic. Se baja tanto las imágenes (a máxima resolución) como los metadatos de la imágen (usuario que la subió, descripción y fecha).

El
script contiene dos time.sleep(). Los metí porque yo lo ejecuto de esta forma, y así hace muchas peticiones al servidor, de modo que para evitar que me banee, puse los sleeps. Si tú vas a bajarte las imágenes usando tags individuales y de uno en uno (python twitpic.py acampadabcn), puedes comentar esas dos líneas poniendo un # delante de ellas.

En total son varios miles de imágenes, por lo que también necesitarás varios gigas para bajarlas todas.


Si alguien quiere hacer otro para Flickr o cualquier otro
hosting, adelante, y puede enviármelo si quiere para que lo publique (licencia libre por favor).

Descargando blogs
, webs y wikis
También se está generando mucha información en forma de blogs, webs y wikis.

Blogs

Si el blog está en Blogger/Blogspot, podemos añadir "/atom.xml?redirect=false&max-results=499" a la URL y estaremos generando un XML con los 499 post más recientes (es el límite). Luego hacemos botón derecho/guardar como y elegimos guardar solo el XML o XML + imágenes.

Webs

Si es una web podemos usar wget: wget -m -np -k -c -r -p http://tomalaplaza.net. Cuidado que si se descarga solamente el index.html, puede que el servidor nos esté detectando como bot y devolviendo basura (si abres el index.html verás muchos símbolos raros). Si el robots.txt está activado, se puede desactivar con la opción de wget: -e robots=off

Wikis MediaWiki

Si es un wiki MediaWiki, como http://15demayo.info/wiki/, podemos usar las tools de WikiTeam un proyecto que yo mismo inicié hace poco. Descárgate el generador de dumps, luego vas al wiki en cuestión y entras en el historial de cualquier página del wiki, cambia todo lo que viene a partir del index.php por api.php y obtienes la URL http://15demayo.info/wiki/api.php y eso es lo que usarás para llamar al script de la siguiente forma: python dumpgenerator.py --api=http://15demayo.info/wiki/api.php --xml --images
  • Aviso: El wiki que precisamente se pone de ejemplo en esta sección ha dejado de existir. Pero hice una copia en julio de 2011 que he subido a WikiTeam.

Búsqueda de dominios y subdominios sobre el 15-M

Combinando unos cuantos comandos Unix es posible recopilar dominios y subdominios sobre el 15-M usando una lista de páginas como semilla y recopilando los enlaces que salen de ellas. El código es un poco feo pero funciona. (El fichero urls.seed debe contener algunas URLs con muchos enlaces, como http://tomalaplaza.net [una por línea], y urls.seed.old la primera vez que ejecutes deberá estár vacío). Salen más de 900 blogs y webs.

Notas finales


Esto solo funciona de momento en Linux.


Lo suyo sería que alguien se bajara todo el material, lo empaquetara y subiera a algún sitio, pero son muchos gigas y no es fácil. De modo que si quieres ir bajandote las cosas por tu cuenta, aquí tienes cómo hacerlo.


Si encuentras algún error, quieres enviar alguna mejora, o algún paso no ha quedado claro, contacta en emijrp@gmail.com



Comments