Big Data se refiere al enorme volumen de datos generados continuamente por medios electrónicos, provenientes de múltiples fuentes y a gran velocidad. Fue conceptualizado por Roger Magoulas en 2005 para describir datos complejos y de gran tamaño que no podían ser gestionados con técnicas tradicionales. Inicialmente se definieron tres características o "V": volumen, velocidad y variedad. Con el tiempo, se añadieron otras cuatro "V": veracidad, valor, variabilidad y visualización, conformando las 7 V del Big Data.
La analítica de Big Data implica recolectar, almacenar, limpiar, organizar y preparar grandes cantidades de datos para analizar tendencias y relaciones, lo cual es inviable con bases de datos tradicionales, requiriendo tecnologías y técnicas especializadas para tomar decisiones eficientes.
Las 7 V se definen como:
Volumen: La inmensa producción de datos global, que se duplica aproximadamente cada 40 meses y se utiliza para generar información y conocimiento.
Velocidad: La rapidez con la que los datos están disponibles y se procesan en tiempo real, lo que aumenta la validez de la información obtenida.
Variedad: Los datos provienen de diversas fuentes y pueden ser estructurados (con un formato definido), no estructurados (sin una estructura, como imágenes o videos) o semiestructurados (con información asociada, como metadatos).
Veracidad: La cualidad de que los datos sean reales y correspondan con la verdad, siendo la depuración y limpieza de datos pasos cruciales para la toma de decisiones fiables, especialmente en informes académicos o institucionales.
Valor: La rentabilidad que se obtiene de la gestión de los datos; el valor del Big Data no reside en la cantidad, sino en cómo se usa para proporcionar ventajas competitivas y repercutir positivamente en la sociedad u organizaciones.
Variabilidad: Las variaciones y cambios que experimentan los datos, afectando su homogeneización y las posibilidades de predicción.
Visualización: La capacidad de hacer que los datos recolectados y analizados sean comprensibles y fáciles de leer mediante sistemas adecuados, transformando los datos en bruto en información analizables para la toma de decisiones.