Herramientas

Para validar y mejor la calidad de los datos sobre biodiversidad

¿Qué es calidad de datos?

La calidad de datos se puede definir como una característica esencial y necesaria para que los datos sean “adecuados para su uso” o tengan un “uso potencial valioso” (Chapman, 2005).

Cuando los datos se utilizan sin tener una visión crítica sobre los posibles errores que contienen, los resultados de sus análisis pueden conducir a conclusiones erróneas y decisiones imprudentes basadas en evidencia poco confiable. Los datos tendrán calidad cuando la información derivada de los mismos representa correctamente el mundo real (los hechos).

Con el fin de que los datos generados en nuestras investigaciones sean influyentes en la toma de decisiones, es importante tener en cuenta el concepto de calidad de datos a lo largo de toda la cadena de la información. A continuación se listas varias herramientas útiles para la validación y limpieza de los datos.

NOMBRE

USO

¿QUÉ PUEDE HACER?

DARWIN CORE

Estructuración de datos

Este documento está dirigido a aquellos que necesitan una referencia (lista y definiciones) de la información esencial acerca de los elementos actuales recomendados del Darwin Core.

Estandarización

Permite validar un conjunto de datos a partir de una plantilla Darwin Core (en .csv) o un Darwin Core Archive (.zip) y detecta qué posibles problemas o errores puede presentar el conjunto de datos para su óptima publicación.

Estandarización

Permite visualizar todos los elementos del estándar Darwin Core y sus extensiones, su principal función es la creación de un XML que puede ser incluido en un archivo DwC.

Estructuración, estandarización y validación

Realiza la validación y chequeo de los datos en formato Darwin Core. Permite detectar y corregir errores en los campos de los archivos, el chequeo de los nombres científicos, la conversión de coordenadas, entre otros.

Estructuración de medidas o hechos asociados a registros biológicos

Es una herramienta desarrollada por el SiB Brasil para ayudar a estandarizar datos ecológicos o rasgos funcionales asociados a cada registro, de acuerdo al estándar Darwin Core (extensión Medidas o Hechos - Measurement or Facts), convirtiendo filas en columnas en el formato Tipo (measurementType) - valor (measurementValue).

LIMPIEZA DE DATOS

Estructuración, estandarización y validación

Permite limpiar, transformar y dar formato a los datos, usar servicios web, corrección masiva campos, entre muchas otras.

Estructuración, estandarización y validación

Guía básica de uso de OpenRefine para la validación y limpieza de datos sobre biodiversidad.

Estructuración, estandarización y validación

Guía de uso de rutinas de calidad de datos implementando en el entorno del software de código abierto OpenRefine, y permiten crear flujos de trabajo específicos para cada conjunto de datos (Registros, Listas, Eventos).

Estructuración, estandarización y validación

Repositorio de rutinas de calidad de datos implementadas en el software de código abierto OpenRefine, basado en herramientas informáticas libres, gratuitas y fáciles de utilizar.

Estructuración, estandarización y validación

Permite limpiar y transformar datos a través de paquetes que son cargados al software.

Extensión de software

Facilita la visualización de la herramienta R project Integra distintas ventanas funcionales.

Validación , servicios geográficos y taxonómicos

A través de la conexión con diferentes servicios web la herramienta permite validar formatos, elementos DwC de publicación en OBIS, taxonomía y geografía.

FECHAS

Estandarización de fechas

Realiza la conversión masiva de fechas al formato ISO8601: AAAA-MM-DD.

UBICACIÓN Y GEOGRAFÍA

Estandarización de coordenadas

Realiza la conversión masiva de coordenadas geográficas (grados, minutos y segundos) a grados decimales.

Validación de nombres geográficos

Permite la consulta de la División Político Administrativa de Colombia para la verificación de nombres y niveles.

Validación de nombres geográficos

Es una lista estándar de nombres y áreas marinas georeferenciadas a nivel global. Integra y brinda información geográfica desde el índice geográfico VLIMAR y la base de datos MARBOUND, y propone un estándar de ubicaciones, límites y regiones georeferenciadas marinas.

Validación geográfica

Permite conocer la ubicación y nombre de las localidades, documentadas en diferentes proyectos asociados a la publicación de datos de biodiversidad a través del SiB Colombia, que han sido sometidas a un proceso de georreferenciación.

Georreferenciación

Define la metodología para la asignación de coordenadas en datos primarios sobre biodiversidad.

Validación geográfica

Al ingresar coordenadas decimales la herramienta retorna información sobre cada punto, como el nombre del país, departamento y otras divisiones politico-administrativas. Si el punto cae en el mar la herramienta calcula la distancia más cercana a la costa, indicando el nombre del país.

Conversión de coordenadas

Realiza la conversión de coordenadas entre mas de 2500 diferentes sistemas ( grados decimales, planas) y datums a nivel mundial. Permite visualizar el resultado de la conversión en un mapa.

Espacialización de registros

Permite visualizar sobre un mapa los registros biológicos de una especie específica. Los registros están enlazados al Portal de datos de GBIF, donde se puede consultar información específica del espécimen.

Validación geográfica

Permite georreferenciar y confirmar localidades. Se encuentra también disponible la aplicación para escritorio.

Validación y visualización geográfica

Permite crear mapas y perfiles a partir de datos geográficos. La entrada de los datos puede ser en forma de datos de GPS, rutas, direcciones de calles o coordenadas simples.

Validación geográfica

Facilita la consulta de más de 10 millones de nombres geográficos, disponibles para descargar gratuitamente. Permite georreferenciar y confirmar localidades.

Validación geográfica

Se puede utilizar para geocodificar ubicaciones para emparejar pares de coordenadas o cadenas de coordenadas en formato WKT. Las cadenas WKT son representaciones textuales de geometrías como puntos, polígonos y líneas.

Conversión y validación geográfica

Permite la conversión o transformación coordenadas en hasta 18 sistemas diferentes.

Visualización geográfica

Es una herramienta muy simple para revisar rápidamente puntos en un mapa. Requiere de entrada un formato de texto delimitado (por ejemplo, CSV o pegado de Excel) y que los datos tengan una columna de longitud decimal: 'decimalLongitude'; y latitud decimal: 'decimalLatitude' para las corrdenadas . Así, es posible seleccionar un campo de interés a partir de la tabla original para cambiar el color de los puntos y la etiqueta que se muestra cuando se hace clic en un punto específico.

Visualización geográfica

Permite obtener las coordenadas de un punto seleccionado en el mapa a través de google maps.

Validación y visualización geográfica

Permite importar y visualizar datos geoespaciales mediante la creación de mapas dinámicos.

NOMBRES Y TAXONOMÍA

Validación de nombres científicos

Normaliza nombres de especies a partir de un archivo CSV de acuerdo al árbol taxonómico de GBIF. El archivo a someter debe contener una columna nombrada como 'scientificName' y opcionalmente la columna 'kingdom' (para el Reino) y 'id' (para un identificador).

Validación de nombres científicos

Permite comparar y validar los nombres ingresados (incluyendo nombres aceptados y sinónimos) con la lista dinámica del Catálogo de la Vida (Catalogue of Life).

Validación de nombres de plantas

Estandariza los nombres científicos a partir de fuentes como Tropicos, USDA Names, GCC y NCBI. Corrige errores y convierte los sinónimos detectados a los nombres actualmente aceptados.

Validación de nombres científicos de organismos marinos

Contrasta automáticamente una lista de especies o lista de taxones con World Register of Marine Species - WoRMS. Después de la coincidencia, la herramienta devolverá su archivo con los AphiaID, nombres válidos, autoridades, clasificación WoRMS y / o cualquier otra salida que haya seleccionado. Valida máx. 1500 registros.

Estandarización de nombres científicos

Separa los nombres científicos en sus distintos componentes a partir del nombre introducido. Permite interpretar la mayoría de nombres científicos y atomizarlos independientemente de su código nomenclatural.

Validación de nombres científicos

Permite corregir y/o enlazar la información acerca de cualquier taxón por medio de un proceso de "reconciliación" entre los nombres ya que contiene ejemplos de nombres científicos escritos con alguna variación.

Herramientas para la limpieza de datos marinos

Iconos: Oliviu Stoian