Son valores que recibe el computador a través de distintos medios y que es manipulada mediante el procesamiento de algoritmos de programación (Editorial Etecé, 2021).
(EduCaixaTV, 2020)
A partir de la definición imagine la cantidad de datos que se ingresan al computador, por eso se requiere una depuración para conservar solo los datos que aportan.
Se denomina limpieza de datos al conjunto de operaciones que se llevan a cabo para determinar información inexacta e incompleta, eliminar anomalías, corregir errores detectados y omisiones en las bases de datos(Ahmed y Aziz, 2010; Müller y Freytag, 2003)
Imagine un gran almacén de datos y que sea necesario aplicar la limpieza de datos.
Hacerlo manualmente tendría una gran inversión de tiempo.
Como lo menciona Castillo y Santos (2015)
Algunos paquetes estadísticos utilizados para hacer rutinas de limpieza de datos de forma semiautomática son:
PowerMark.
Data tools twins
También algunos procedimientos pueden llevarse a cabo utilizando software que permite la programación de reglas y configuraciones de rutinas, como por ejemplo:
Python
FraQL