Para realizar la tesis fue necesario indagar sobre los conocimientos técnicos existentes, operatividad y obstáculos de trabajo, los resultados y las formas de evaluar la calidad de información. Así como, reconocer los métodos dasimétricos actuales e innovadores para tener una cabal idea de la problemática de investigación y hallar su uso adecuado.
Inicialmente el marco teórico se nutrió de conceptos actualizados sobre análisis espacial y Sistemas de Información Geográfica (SIG), y para evaluar la técnica de representación cartográfica, se analizaron las características de los formatos de los datos geográficos. Nos interesó conocer la problemática SIG en la superposición de datos geográficos, en especial, los efectos en atributos y geometría, así como, los inconvenientes en la representación del fenómeno geográfico, dadas por la elección de la escala y unidad de análisis.
Nuestra investigación ahondó en el cambio de escala o escalado (scaling), ligado a la extensión, espaciamiento y el soporte de las observaciones (Barrios Peña, 2009), e identificó dos tipos distintivos: de desagregación o reducción de escala (downscaling), descomponiendo información de forma descendente a unidades menores, y de agregación o aumento de escala (upscaling), transfiriendo la información de manera ascendente a unidades mayores.
Frente a distintos procesamientos y formatos de representación, se asume la existencia del error en el manejo de los datos. Por ej., Gotway e Young (2002) advierten sobre la incompatibilidad y modos de inferencia de los datos, derivando en los clásicos problemas de la unidad de área modificable (PUAM), zonificación, falacia ecológica, alineación y bordes distintos, y el problema en el cambio de soporte. Como soluciones indican la importancia del análisis estadístico y el uso de métodos eficientes en la transferencia de datos.
Uruguay hasta ese momento representaba la Densidad de población – relación entre población y superficie de un territorio – a partir de las unidades geoestadísticas definidas por el INE, preservando el carácter reservado de la información estadística. Con el interés de obtener un indicador más ajustado y eficiente, se investigaron los antecedentes académicos e institucionales, entre ellos el mapa dasimétrico resultaba ser una herramienta útil. Regueira et al. (2013) lo define como un “mapa de coropletas en el que las áreas estadísticas se subdividen en áreas de homogeneidad relativa basándose en informaciones complementarias”.
En la investigación se presentaron una serie de diferentes técnicas dasimétricas y métodos de representación de cobertura y uso del suelo mundial, útil como información auxiliar. Finalmente se seleccionaron tres formas de caracterización dasimétrica para aplicar en Uruguay (Figura 2), con variables y ecuaciones para desagregación de población en las 231 Secciones censales, aplicando el Método 1 (Ponderación Areal Modificada) y/o el Método 2 (Método Dasimétrico Inteligente), y de agregación de población, utilizando el Método 3 (Cálculo proporcional por área de un grid de 1km).
Para el Método 1 se tuvieron en cuenta los trabajos de Gallego y Peedel (2001), Bielecka (2005, 2007), Rosina, Hurbánek y Atkinson (2012), y Goerlich y Cantarino (2012). De ellos se consideraron las ecuaciones y coeficientes de ponderación de distribución de población por cada tipo de cobertura de suelo, obtenidos de procesos iterativos (conocido como CLC-iterativo). Para el Método 2, los trabajos de Mennis y Hultgren (2006) y Batista e Silva (2009), que se basan en la estimación de población por unidad censal y su redistribución según el área de cada cobertura dentro de esa unidad censal. Para el Método 3, se estudiaron los aportes de Milego y Ramos (2011) y Goerlich y Cantarino (2012), que logran las estimaciones de agregación de población por cada celda grid, a partir de la suma de la proporcionalidad ponderada de la población según el área y el tipo de cobertura de suelo.
Para emplear los métodos, se realizaron ajustes en los atributos y topología de las capas de cobertura terrestre y Secciones censales. Además, se prepararon tres formatos geométricos: una cartografía con la intersección entre Secciones censales y cobertura (BV: Base Vectorial), una cuadrícula de 100 m, derivada de la Rasterización del dato anterior (BRV: Base Raster-Vectorial), y una cuadrícula de 1 km (Base grid), que contenía 177.474 celdas para todo el Uruguay.
En la aplicación del Método 1, se valoraron cuatro Modelos de Coeficientes (MC) de distribución dasimétrica de la población (Tabla 1): MC 1, considerando todas las coberturas con el mismo nivel de distribución, por lo tanto, coeficientes teóricos de valor 1, como propone Rosina et al. (2012); MC 2, considerando los coeficientes iniciales de Gallego e Peedel (2001); MC 3, considerando los coeficientes finales de Gallego y Peedel (2001) y Bielecka (2005); MC 4, adaptación a datos de Uruguay, correspondiente al porcentaje de población por cobertura del suelo, según una distribución aleatoria de la población 2011 por zonas censales. También hubo que adaptar los coeficientes teóricos al sistema de clasificación de cobertura terrestre (LCCS de FAO) de Uruguay, pues los MC 2 y 3 utilizaban el sistema europeo CORINE Land Cover (CLC).
Figura 2 – Esquema metodológico de los pasos realizados de preparación de base de datos geográficos y aplicación de métodos dasimétricos propuestos, así como análisis del error y los mapas resultantes.
En todos los casos, se procesaron las bases de datos (con datos censales y de cobertura) con scripts elaborados con el paquete estadístico Stata, para hallar las estimaciones de distribución de población y los nuevos coeficientes por cobertura terrestre. Los tres Métodos utilizaron los cuatro Modelos de coeficientes, y las geometrías Vectorial y Raster-Vectorial.
Además, se hallaron los valores globales de diferencia entre población de referencia y estimada, y se calcularon indicadores de discrepancia absoluta Δ (equivalente al Error Total Absoluto), variando entre 0 y 2 veces el total de población de la unidad de análisis; indicadores de discrepancia relativa δ, re-escala entre [0,1] del anterior indicador y el índice 100 x δ, correspondiente al valor δ en porcentaje.
Para evaluar las diferencias, en el Método 1 se usaron la población por Departamento y Sección Censal, y para el Método 2, se emplearon la población real por Sección censal con la población estimada y definida por los coeficientes obtenidos con el Método 1. En el Método 3, se cotejo una población “real” ficticia por celda grid de 1 km, construida a partir de puntos aleatorios de población 2011 por zona censal, con las estimaciones de agregación por celda obtenidas a partir de la población estimada por cada cobertura y sección censal del Método 2.
Se complementa la verificación de los resultados, con el análisis de la correlación – Coeficiente de Pearson (R) y Coeficiente de determinación (R2) – y nivel de significancia (α) para cada estimación de población; así como, los residuales de las observaciones. Para ello, se utilizaron los test estadísticos de error y exactitud más comunes en estas aplicaciones geodemográficas: la Raíz del Error Medio Cuadrático (RMSE) – rango [0, ∞], entre la estimación perfecta y valores muy altos de menor ajuste –, el Error Total Absoluto (TAE) – rango [0, (2 ∗ Pt)], entre cero a dos veces la población total del área de estudio –, el Error Medio Absoluto (MAE) y el Error Total Absoluto Relativo (RTAE) – rango [0, 2] –.
Incluso se evaluaron las estimaciones y el error de forma gráfica como cartográfica. Para la cartografía, se valora la desviación del resultado, sea por infraestimación o sobrestimación, y complementándose a la visualización del error absoluto y relativo, se elaboró la diferencia normalizada entre la población real y estimada por sección censal.
Por último, para obtener los resultados se realizaron ajustes en la geometría, en la codificación de las unidades intersectadas de cobertura y sección censal, en las leyendas cartográficas a utilizar, y en los coeficientes y métodos a aplicar. En particular, es importante indicar que el Método 3, de agregación de las estimaciones de población por celda grid de 1 km, presentaba una complejidad extra dada la unión del grid con la geometría de cobertura + sección censal. Por un lado, se presentaban tres formas de geoprocesos y obtención de geometrías con áreas distintas por cada cobertura en una celda: polígonos Multiparte, Polígonos disueltos y/o Partes sencillas. Por otro lado, se obtendrían de forma inconveniente, valores de población con decimales, y que al recurrir al redondeo de la estimación al inicio y/o al final del proceso se lograban valores muy diferentes. Por ello, se determinó seis tipos de cálculo: Tipo 1 y 2, para polígonos Multiparte, Tipo 3 y 4, para polígonos Disueltos, y Tipo 5 y 6, para polígonos en Partes Sencillas; siendo los tipos impares la suma de población en números enteros en las celdas grid al inicio del proceso, y los tipos pares, la suma decimal, para realizar el redondeo al final del cálculo. Luego de algunas verificaciones, se identificaron que los tipos pares estiman mejor, y que el Tipo 2 es el más aceptable, es decir, calcula la suma de población por celda grid con redondeo al final y geoproceso de polígonos Multiparte.
Tabla 1 – Coeficientes iniciales y resultantes de la aplicación de cuatro Modelos de Coeficientes en base a la bibliografía, según el Método dasimétrico 1. Aquí se presentan los valores promedios resultantes del proceso de iteración de las sintaxis Stata, utilizados para crear (o recrear) los mapas dasimétricos según este método.