Territorio y Riesgos - E1. Organizando la información

Tratando de encontrar en el bosque el camino

Estrategia 1. Organizando la información

El flujo de la información, estructura organizativa a nivel externo

El flujo de la información, estructura organizativa a nivel interno

El flujo de la información, estructura organizativa para procesar datos

Orden, orden y más orden. Manejar una o dos capas de información espacial es fácil, manejar cientos es más complicado. Además, si queremos dar respuestas rápidas en situaciones de crisis, el orden nos ayudará rápidamente a encontrar las cosas, de otra forma tardaremos demasiado tiempo.

Pasos iniciales

Para organizar los datos espaciales y alfanuméricos, especialmente cuando se quiere manejar una gran cantidad y variedad de ellos, es necesario disponer de una estrategia de almacenamiento, para la cual se proponen tres niveles (Imagen 1). Hay que aclarar que hoy en día es común organizar los datos geográficos en geodatabases, sin embargo, la metodología que proponemos se centra en operar sobre las capas a nivel individual, lo que implica que deben estar adecuadamente organizadas en directorios y archivos. Uno de los motivos es que realizamos análisis en aplicaciones independientes (fuera del SIG) y además no usamos una base de datos para ello. Quizás sea antiguo por operar así, pero eso me da la flexibilidad para no depender de software de terceros y, al mismo tiempo, tener un mayor control y capacidad de actualización sobre los datos que estoy manejando. Por otra parte, veras que hay muchas cosas que organizar pero... no pensaras que una ciudad, con la cantidad de datos que se generan hoy en día, se gestiona fácilmente.

Si lo pensamos desde el punto de vista del riesgo y sobre todo en emergencias, esta organización es imprescindible. No podemos buscar donde hemos guardado los datos cuando no existe una estructura clara, dado que el cerebro no piensa bien bajo presión por lo que, lo más probable, es que no encontremos lo que buscamos. Computador desorganizado... técnico sospechoso!

En esta fase inicial hay que considerar una serie de aspectos:

Tenemos que conocer los datos, abrirlos, ver que tienen, como están y guardarlos individualmente (el archivo) en el directorio correspondiente. No podemos hacer bien esta labor si no conocemos la información porque nunca la abrimos.
La apertura de los ficheros también nos dará una idea para determinar la importancia que pueda tener la información y si son necesarios arreglos mínimos (por ejemplo un cambio del sistema geográfico de proyección) o bien desarrollos más importantes para poder trabajar con ellos en mejores condiciones.
Definir los flujos de información considerando de dónde viene, quien la genera, donde la envía o desde donde la descargo, donde la guardo, donde genero las copias alternativas una vez las he procesado, etc. Esto puede implicar servidores intermedios, si bien los datos deben estar siempre disponibles en local para garantizar el acceso a los mismos en casi cualquier circunstancia (recuerda que en nuestra óptica el riesgo siegue siendo importante).
Preparar una estructura de carpetas que sea lo más intuitiva posible para almacenar los datos cartográficos, esto es, que la misma pueda llevarte hasta el archivo que necesitas sin tener que saber de memoria su posición. Esta estructura tiene la ventaja de poder compartirse con otros compañeros y así facilitar el uso de datos sin que dependa del conocimiento de una persona sola.
Preparar una estructura de carpetas para almacenar los datos a procesar, cuyos criterios son totalmente diferentes, pues obedecen a las necesidades de los archivos de entrada del software desarrollado.
Para los nombres de archivos y carpetas utilizar caracteres estándar, evitando "ñ", acentos y espacios. La mala costumbre de nombrar de cualquier forma los archivos no es admisible, debido a los problemas que puede generar cuando programas.

Imagen 1. Esquema de los diferentes niveles organizativos necesarios para operar a nivel de administración local

El flujo de la información, estructura organizativa a nivel externo

Dentro de las administraciones locales, un factor a considerar es "de dónde viene la información". Muchos de los datos son generados externamente por otros compañeros en otras áreas. Mantener una versión original del dato puede ser importante y si además existen versiones (actualizaciones periódicas), también debemos llevar un control. Sí, lo ideal sería una única infraestructura de datos común y centralizada, pero eso no siempre pasa, especialmente en ayuntamientos grandes y fragmentados con diferentes áreas de trabajo. En cualquier caso, conocer los responsables que generan la información, el sistema utilizado así como otro tipo de metadatos es crítico para saber cómo podemos manejarlos. Pero más importante aún, es poder defender los resultados obtenidos a partir de ellos en análisis y evaluaciones.

Una estructura de almacenamiento que nos permita organizar la llegada de estos datos debe estar pensada desde el punto de vista del emisor, o sea, lo más simple posible para facilitar el intercambio, por ejemplo:

AREA-TRABAJO (Una administración local dispone de muchas áreas que generan datos, no todos ellos tienen carácter espacial, pero muchos tienen el potencial de serlo mediante cruces con otras capas ya georeferenciadas)

TEMATICA (Una misma área puede disponer de distintas capas que varían temáticamente, lo que implica una mejor organización por niveles para albergar los datos de llegada). En este nivel es ideal tener algún archivo que almacene los principales metadatos, es algo que puede completarse entre todos.

En líneas generales, este espacio no está construido desde el punto de vista del receptor de la información, sino del emisor, lo que buscamos es facilitar, en la medida de lo posible, el intercambio de datos. Que el emisor pueda localizar fácilmente el lugar donde almacenar, versiones de sus propios datos e, igualmente, encontrar los datos compartidos, a su vez, por otras personas.

Al igual que veremos a bajo, es importante respetar nombres de directorios simples, sin espacios y con caracteres estándar. Si, se que cuesta no poner tildes y "ñ" a diestro y siniestro pero mira el lado bueno, si tenemos faltas de ortografía, aquí al menos las podemos justificar.

El flujo de la información, estructura organizativa a nivel interno

Cada grupo puede definir el suyo, lo importante es que, como hemos indicado, de forma intuitiva pueda llevarte fácilmente al archivo buscado. Si tienes que pensar demasiado es que no es muy intuitiva y tampoco vale eso de... !en mi pc yo me aclaro! Si un grupo quiere trabajar el temas de riesgo o dar apoyo a las autoridades en toma de decisiones, hay que trabajar de forma organizada, dado que muchas veces el tiempo de respuesta es muy corto. El esquema de directorios que yo uso para las capas vectoriales y raster iniciales es el siguiente:

SIG (carpeta principal y única donde se guarda toda la información cartográfica o alfanumérica georeferenciable)

PAIS (en mi caso tengo de distintas zonas del mundo, líos en los que se mete uno...)

ZONA (las capas cartográficas a veces solo cubren una parte, por ejemplo, una provincia, por contraposición a las que cubren todo el país, este nivel me permite determinar el área representada por la información)

RASTER (solo capas en formato raster como modelos digitales del terreno (MDT), ortofotos, etc)

PROYECCION GEOGRÁFICA (en mi caso prefiero organizarlas según la proyección, así evito confusiones en el uso, dado que para el procesado todas deben estar en la misma)

TEMA (Según el tema de la capa, MDT, ortofotos, etc)

SUBTEMA (puede variar según tipo de capa, por ejemplo por entidad u origen de la capa, fecha si se tienen versiones, etc)

VECTOR (solo capas en formato vectorial como shapefile, kml, etc)

PROYECCION GEOGRAFICA

TEMA (Según la temática de la capa, administración, infraestructura, edificaciones, población, etc)

SUBTEMA (puede variar según tipo de capa, por ejemplo por entidad u origen de la capa, fecha si se tienen versiones, etc)

Un ejemplo real en mi disco para llegar a la capa administrativa que representa los barrios del Distrito Metropolitano de Quito sería: /home/usuario/SIG/ECUADOR/QUITO/VECTOR/UTM17S/ADMIN/dmq_barrios-2020-fin_pl.shp (Ojo que trabajo en Linux, así que las rutas son algo distintas a Windows).

En el ejemplo vemos que no existen espacios en los nombres de los archivos ni del fichero. Los nombres utilizados, aunque sean cortos, relejan claramente lo que se está buscando. Este criterio también se aplica al nombre del archivo. Otro aspecto, para la ZONA, una capa nacional repetiría el nombre del país (ECUADOR/ECUADOR), mientras que si fuera parcial sería (ECUADOR/QUITO).

También es importante que toda la cartografía se encuentre en un solo directorio principal, en el ejemplo SIG, evitando las dispersiones asociadas a proyectos, entregas, etc. Los que manejan SIGs y usan geodatabases ya se han olvidado de esta cuestión, pero sigue siendo fundamental al usar capas individuales. Si estas en Windows, dicho directorio tiene que estar fuera del famoso "Mis Documentos", dado que ya introduce espacios.

El flujo de la información, estructura organizativa para procesar datos

En la versión de 2022 este aspecto se ha modificado (espero que sea más fácil su uso!).

Esta estructura está pensada cuando se tienen desarrollos propios y depende en cierta forma de cómo funcionan las aplicaciones desarrolladas. En nuestro caso hemos optado por, en vez de especificar la ruta de cada archivo en la configuración de entrada, indicamos la carpeta donde se encuentran todos los de un mismo tipo y, en un listado a parte, se listan solo los nombres. Así, en la fase actual, dependen de una carpeta general donde se almacenan distintos tipos de datos comunes entre si por su funcionalidad y formato. Por otra parte, el ejemplo que proporciono a continuación es opcional, podría ser más sencillo, en realidad lo único importante es saber donde están los datos para establecer las rutas adecuadamente en los archivos de configuración que veremos más adelante.

PROGRAMACION (carpeta general donde se guarda todo el desarrollo).

DATOS (Carpeta general que almacena los datos de entrada y de salida de los aplicativos, que son los que realmente ocupan espacio).

LUGAR (Dado que pueden trabajarse en distintos países).

DATA_IN (estructura de datos de entrada).

DATA_OUT (estructura de datos de salida.

APLICACIÓN (Los datos de salida se organizan según la aplicación que los genera).

SOFTWARE (carpeta general donde se guardan los aplicativos desarrollados)

NOMBRE_APLICATIVO (Contiene la aplicación principal o ejecutable y el resto de subcarpetas)

MODULOS (Cada algoritmo de cálculo se organiza en un archivo independiente que es llamado por la aplicación principal)

CONFIG (Cada aproximación tiene sus archivo de configuración)

ESTRUCTURAS (Archivos donde se definen las estructuras de datos que servirán para almacenar la información y que es común).

El motivo de separar los datos de entrada y salida del software es facilitar las copias de seguridad de este último. Al ocupar poco espacio es fácil manejarlo en la nube, archivos de seguridad, etc. Una capa siempre puede recuperarse o sustituirse por una versión más reciente, sin embargo, perder el software puede implicar muchas horas de trabajo. Además, si bien aquí solo trabajaremos con un conjunto de aplicaciones, en mi pc tengo muchas más, de ahí el orden.

La principal modificación realizada está en la organización de los datos de entrada. En vez de usar varias carpetas, como hacíamos antes (ver abajo), ahora se usan menos y se combinan con los nombres que se les asignan a los archivos. La estructura quedaría de la siguiente forma:

DATA_IN

RASTER (archivos raster que representan Unidades Espaciales de Análisis (UAE) o valores espaciales)

CAT (Archivos *.csv donde se almacenan las tipologías o categorías de datos raster que funcionan como diccionarios de los archivos que representan valores, por oposición a los que representan un ID)

CSV (Archivo que contiene los atributos mínimos necesarios de una capa UAE sobre la que se adicionan los valores obtenidos tras el análisis espacial)

CSV-VR (Variante de la anterior a la que se añade el nombre de la UAE, por ejemplo para aquellas que tienen un caracter administrativo)

GRD (Archivos raster, para los nombres se utilizan una siglas que indican la extensión de la capa y un siguiente grupo que las organiza temáticamente).

ORIGINALES (donde se guardan archivos intermedios hasta que se obtiene la capa final que servirá para el procesado)

VECTOR (archivos vectoriales en formato *.csv que pueden servir para caracterizar una UAE o bien ser caracterizados)

CAT (Archivos *.csv donde se almacenan las tipologías o categorías de datos vectoriales y funcionan como diccionarios).

CSV (Archivo que contiene los atributos mínimos necesarios de cada capa geográfica sobre la que se adicionan los valores obtenidos tras el análisis espacial)

CSV-OTROS (Contiene otras capas vectoriales que siguen un formato distinto, por ejemplo la capa de vias-linea)

ORIGINALES (donde se guardan archivos intermedios hasta que se obtiene la capa final que servirá para el procesado)

Como ves, la organización de los datos no es un tema menor, es algo en lo que hay que pensar y que además está en continua mejora, especialmente si modificas el software del que es dependiente.

Antigua organización de datos pre 2022

Antigua organización de la carpeta DATA_IN

DATA_IN

RASTER_UAE (archivos raster que representan Unidades Espaciales de Análisis (UAE), formas en las que se divide el territorio)

SISTEMA (Las que están implementadas de forma específica en el software tal como explicamos en consideraciones importantes)

CSV (Archivo que contiene los atributos necesarios de la capa UAE sobre la que se adicionan los valores del análisis espacial)

GRD (Archivo raster que representa la UAE)

USUARIO (Las que son adicionadas por el usuario y tienen un tratamiento genérico)

CSV (Archivo que contiene los atributos necesarios de la capa UAE sobre la que se adicionan los valores del análisis espacial)

GRD (Archivo raster que representa la UAE)

DATA_VAR-FLOAT_RASTER (archivos raster en formato float que funcionan como variables, su misión es transmitir el valor a las variables vectoriales)

SISTEMA

USUARIO

DATA_VAR-RASTER (archivos raster en formato integer que funcionan como variables, su misión es transmitir el valor a las variables vectoriales O UAEs)

SISTEMA

USUARIO

DATA_VAR-VECTOR (archivos vectoriales en formato *.csv que pueden servir para caracterizar una UAE o bien ser caracterizados)

SISTEMA

USUARIO

DATA_VIA (archivos vectoriales en formato *.csv que representan específicamente el viario, su misión es realizar análisis a nivel de calles)

ORIGINALES (los archivos temporales exportados directamente desde el SIG, antes de adaptarlos al formato de los programas)

RASTER (De tipo raster)

CSV (Cada raster, cuando funciona como UAE lleva un archivo paralelo de atributos al que se asocia la información obtenida)

GRD (Capa raster en formato *.grd (Golden Surfer Binario), donde los valores de las celdas están asociados con el archivo anterior)

VECTOR (De tipo vectorial)

TEMATICA (Área temática a la que pertenecen)