El término "dato" proviene del latín "datum" ("dado") y se refiere a elementos crudos que se abstraen, miden y registran de fenómenos, convirtiéndose en hechos. Actualmente, los datos son más bien "capturados" o seleccionados bajo diversos factores socioeducativos, políticos, económicos y tecnológicos, no simplemente "dados".
Tipos de Datos
Existen tres tipos principales de datos, definidos por su estructura:
Datos Estructurados: Son la forma tradicional de datos, almacenados en tablas con longitud y formato definidos (ej: números, texto en filas/columnas, fechas). Son fáciles de ordenar y procesar por herramientas de minería de datos, como un archivador perfectamente organizado.
Datos Semi-estructurados: Siguen una secuencia con cierta estructura, pero no tan regular como los datos estructurados. Tienen patrones comunes que describen relaciones (ej: HTML, con sus etiquetas que definen bloques, aunque el número de elementos sea variable).
Datos No Estructurados: Carecen de una estructura interna identificable y suelen ser datos binarios (ej: correos electrónicos, archivos de texto, PDF, imágenes, videos, audios, publicaciones en redes sociales). Por sí mismos no tienen valor hasta que se organizan, y no todos pueden convertirse fácilmente a un modelo estructurado. Su contenido puede ser categorizado para extraer información relevante.