El concepto de "big data" engloba datos que poseen una mayor diversidad, se presentan en volúmenes en constante crecimiento y se generan a una velocidad más acelerada. Estos aspectos también se conocen como "las tres V". En otras palabras, el big data se refiere a conjuntos de datos más grandes y complejos, especialmente provenientes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional no puede manejarlos de manera efectiva. Sin embargo, estos grandes volúmenes de datos pueden ser utilizados para abordar problemas empresariales que antes eran difíciles de resolver. (Oracle, 2023)
En los últimos tiempos, los avances tecnológicos han logrado reducir significativamente los costos de almacenamiento y procesamiento de datos, lo que ha facilitado y abaratado el almacenamiento de información como nunca antes. Actualmente, con un mayor acceso y disponibilidad de grandes volúmenes de datos (big data), es posible tomar decisiones empresariales más acertadas y precisas.
A continuación, como lo menciona Oracle en su página web, se presenta la definición de lo que denominan “las 3 V”:
Volumen: La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.
Velocidad: La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.
Variedad: La variedad hace referencia a los diversos tipos de datos disponibles. Los datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o video, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos.
Los datos de navegación dentro del sitio web (el reino de la analítica web) se suman ahora a los datos que hay en internet (cibermetría) respecto de:
nichos de mercado online;
conductas de búsqueda de los usuarios en otros sitios web y en distintos buscadores;
microsegmentación de esos potenciales clientes;
la competencia;
relaciones entre esos competidores y otros sitios web medidas en forma de enlaces;
relaciones entre las marcas y/o productos y los usuarios que los consumen medidas en forma de comentarios, ret-weets, respuestas, likes…
noticias que hay relativas a las temáticas de esos productos;
innovación científica que permite intuir hacia dónde va la propuesta de valor única tecnológica de la competencia;
etcétera, etcétera
Entonces, podemos denominar Big Data como el análisis y gestión de grandes volúmenes de datos los cuales no pueden ser tratados de la manera convencional, y los cuales deben cumplir con la ley de las 4V´s del Big Data. (Sánchez, 2018)
La capacidad para lidiar con la complejidad inherente a esta combinación de datos de fuentes heterogéneas es una de las áreas en las que se está avanzando rápidamente. Por ejemplo, gracias a los repositorios de datos científicos y al creciente intercambio de fuentes de datos a través de Internet mediante numerosas APIs, que incluyen incluso el Internet de las Cosas (IoT), como los datos generados por dispositivos wearables o los producidos por proyectos de ciudades inteligentes (smart cities). (Serrano, 2014)
Sin embargo, el valor del big data no se limita únicamente a su análisis, lo cual de por sí representa una ventaja. Se trata de un proceso completo de descubrimiento que requiere que los analistas, los usuarios empresariales y los ejecutivos formulen las preguntas adecuadas, identifiquen patrones, tomen decisiones informadas y predigan comportamientos futuros. (Oracle, 2023)
NoSQL, también conocido como "no solo SQL", "no SQL", es un enfoque para el diseño de bases de datos que permite el almacenamiento y la consulta de datos fuera de las estructuras tradicionales que se encuentran en las bases de datos relacionales. Si bien aún puede almacenar datos que se encuentran dentro de los sistemas de gestión de bases de datos relacionales (RDBMS), los almacena de manera diferente a un RDBMS. La decisión de utilizar una base de datos relacional frente a una no relacional es en gran medida contextual y varía según el caso de uso. (IBM, 2023)
NoSQL también es un tipo de base de datos distribuida, lo que significa que la información se copia y almacena en varios servidores, que pueden ser remotos o locales. De esta manera, se garantiza la disponibilidad y la confiabilidad de los datos. Si algunos de los datos se desconectan, el resto de la base de datos puede continuar ejecutándose.
Hoy en día, las empresas necesitan gestionar grandes volúmenes de datos a altas velocidades con la capacidad de escalar rápidamente para ejecutar aplicaciones web modernas en casi todas las industrias. En esta era de crecimiento dentro de la nube, big data y aplicaciones móviles y web, las bases de datos NoSQL brindan esa velocidad y escalabilidad, lo que las convierte en una opción popular por su rendimiento y facilidad de uso. (IBM, 2023)
Ejemplos de bases de datos NoSQL
Muchas empresas han ingresado al panorama NoSQL, aquí hay algunas bases de datos NoSQL populares:
Apache Couch DB, una base de datos basada en documentos JSON de código abierto que utiliza JavaScript como su lenguaje de consulta.
Elasticsearch, una base de datos basada en documentos que incluye un motor de búsqueda de texto completo.
Couchbase, una base de datos de documentos y pares clave-valor que permite a los desarrolladores crear aplicaciones adaptativas y flexibles para la nube, la tecnología móvil y edge computing. (Oracle, 2023)
Hadoop es un sistema de código abierto distribuido, perteneciente a Apache Foundation, diseñado en Java para el almacenamiento y procesamiento de grandes volúmenes de datos. Fue desarrollado originalmente por Google, donde Doug Cutting desempeñó un papel fundamental en su creación. Hadoop se compone de dos componentes principales: HDFS y MapReduce, y cuenta con varios frameworks y aplicaciones complementarias que amplían y refuerzan su funcionalidad.
HDFS, o Hadoop File System, es la forma en que Hadoop almacena la información. Se utiliza para almacenar archivos no estructurados de gran tamaño, como documentos JSON, videos, mensajes de texto, registros de diversos formatos, entre otros. HDFS consta de un NameNode, que es el nodo maestro en el clúster Hadoop, y de varios DataNodes, que son servidores de hardware estándar donde se distribuyen los archivos. HDFS divide los archivos en bloques de 64 MB o 128 MB, dependiendo de la configuración, y distribuye estos bloques entre los DataNodes seleccionados por el NameNode. El NameNode se encarga de almacenar los metadatos, mientras que los DataNodes almacenan los bloques físicos. La pérdida del NameNode implica la pérdida del clúster Hadoop.
Además, Hadoop cuenta con varios frameworks y aplicaciones satélites que mejoran su funcionalidad y permiten un mejor control del sistema. Aunque no se detallan en este contexto, se mencionan algunas de ellas, como Pig, Hive, Oozie, HBase, Mahout, Impala y Spark, las cuales pueden ser exploradas en mayor profundidad en otra ocasión. (Oracle, 2023)
Hadoop es un marco de software diseñado en Java que se utiliza para ejecutar aplicaciones en clústeres de gran escala. Comparte algunas características con el Sistema de Archivos de Google (GFS) y MapReduce. Hadoop es especialmente adecuado para aplicaciones que manejan grandes volúmenes de datos y requieren un acceso rápido a los mismos. A diferencia de las máquinas individuales, Hadoop ofrece un alto rendimiento en el procesamiento cuando se trata de cientos de CPU. (Zeebaree, Shukur et al., 2020)
HDFS (Hadoop Distributed File System) es utilizado por Hadoop para dividir archivos de gran tamaño en bloques y distribuirlos en diferentes máquinas dentro del clúster. Cada bloque de datos se replica en varias máquinas para garantizar la disponibilidad en caso de fallos. Los datos se tratan como registros en el marco de aplicaciones de Hadoop. Los datos de entrada se dividen en formatos diferentes y se procesan en paralelo en los nodos del clúster.
Las empresas se enfrentan al desafío de gestionar grandes volúmenes de datos en forma de Big Data, lo que ha llevado a la necesidad de utilizar nuevas herramientas para su gestión. A diferencia de las bases de datos relacionales tradicionales que están diseñadas para manejar datos estructurados en forma de tablas, los datos de Big Data son de diversos formatos, incluyendo datos no estructurados y semiestructurados. Para manejar eficientemente estos tipos de datos, se requieren infraestructuras de almacenamiento especializadas, como Hadoop y Spark, que permiten procesar grandes volúmenes de datos en tiempo real. Además, las bases de datos "en memoria" y las bases de datos analíticas MPP también son opciones comunes, siempre y cuando puedan manejar datos no estructurados y semiestructurados.
Hadoop, como plataforma de procesamiento de Big Data, se compone de dos componentes esenciales: HDFS (Hadoop Distributed File System), un sistema de archivos diseñado para el almacenamiento de datos distribuido, y MapReduce, un algoritmo que permite el procesamiento paralelo y de alto rendimiento de datos. HDFS conecta los sistemas de archivos en los diferentes nodos de un clúster Hadoop para formar un sistema de archivos procesado por el algoritmo MapReduce. Por su parte, MapReduce es un algoritmo que facilita el procesamiento paralelo de miles de nodos en un clúster Hadoop, lo que permite el procesamiento eficiente de grandes volúmenes de datos de diversos formatos, ya sean estructurados, como los de bases de datos relacionales, o no estructurados, como texto, audio, video, imágenes, datos de redes sociales o de la web. (Aguilar, 2019)
En PowerData 2023, indica los 3 principales tipos de técnicas de procesamiento y análisis de datos
Descubre qué tipos de técnicas de procesamiento y análisis de datos son preferibles para tu negocio: si batch, streaming o tiempo real.
Batch: para lotes de grandes volúmenes de datos. Apache Hadoop es un framework de computación distribuida basado en el modelo MapReduce de Google, diseñado para procesar grandes volúmenes de datos en paralelo. Hadoop Distributed File System (HDFS) es el sistema de archivos subyacente en un clúster Hadoop y se desempeña mejor con un menor número de archivos de big data de gran tamaño en comparación con una mayor cantidad de archivos más pequeños.
Los trabajos en el entorno de Hadoop suelen llevar minutos u horas para completarse, lo que lo hace menos adecuado para análisis en tiempo real. En cambio, es más adecuado para casos en los que se puede conformar con análisis offline.
Streaming. El procesamiento de flujo, también conocido como streaming, es una técnica de procesamiento y análisis de datos en la cual los datos fluyen continuamente a través de una red de entidades de transformación en un sistema. Se enfoca en el procesamiento de datos asociados a series de tiempo de manera continua.
A diferencia del procesamiento en tiempo real, el procesamiento de flujo no tiene limitaciones estrictas de tiempo. Por ejemplo, un sistema que realiza el recuento de palabras en tweets para el 99,9% de los tweets procesados se considera un sistema de procesamiento de flujo válido. No hay una obligación de generar una salida inmediata para cada entrada recibida en el sistema. Las únicas limitaciones son:
Se requiere suficiente memoria para almacenar las entradas en cola.
La tasa de procesamiento del sistema a largo plazo debe ser igual o mayor que la tasa de entrada de datos en ese mismo período. De lo contrario, los requisitos de almacenamiento del sistema crecerían ilimitadamente.
El procesamiento de flujo generalmente no está diseñado para analizar conjuntos completos de grandes datos, a menos que haya casos excepcionales en los que pueda cumplir con esta capacidad.
Tiempo real. Cuando se trabaja con datos en tiempo real, el procesamiento analítico en línea se realiza a una velocidad extremadamente alta, con un margen de tiempo inferior a segundos. En este contexto, los sistemas en tiempo real generalmente no utilizan mecanismos especiales para garantizar la atomicidad y durabilidad de los datos. Su principal objetivo es procesar la entrada tan pronto como sea posible.
El problema surge cuando se produce la pérdida de datos de entrada. En estos casos, los sistemas en tiempo real simplemente ignoran la pérdida y continúan procesando y analizando sin detenerse. Esto puede no ser un problema en entornos como el comercio electrónico, pero sí puede serlo en sistemas de vigilancia de seguridad bancaria o militar. Aunque no es deseable perder información, incluso la tecnología tiene sus limitaciones. Cuando se trabaja verdaderamente en tiempo real, el sistema no puede detener sus operaciones para corregir algo que ya ha pasado segundos atrás. Debe continuar procesando los datos que siguen llegando y hacer todo lo posible para mantener su flujo de procesamiento.
La selección de las técnicas de procesamiento y análisis de datos es crucial y dependerá del resultado deseado. Factores como la potencia y escalabilidad del sistema, la capacidad para detectar valores atípicos, fraudes o realizar controles de seguridad son consideraciones importantes. Reducir la latencia en el análisis de grandes volúmenes de datos es uno de los desafíos más difíciles, ya que implica procesar terabytes de datos en segundos.
Los requisitos de tiempo de respuesta, las características de los datos a analizar y la carga de trabajo son factores determinantes para elegir las mejores técnicas de procesamiento y análisis de datos. Es necesario evaluar estas cuestiones para determinar la mejor opción en cada caso. (PowerData, 2023)
En informática, un proceso se trata básicamente de un programa que entra en ejecución. Los procesos son una sucesión de instrucciones que pretenden llegar a un estado final o que persiguen realizar una tarea concreta.
Un proceso ETL (Extract, Transform and Load) es un proceso de consta de tres fases en el que datos se extraen, transforman y cargan en almacén de datos. Los datos recopilados pueden ser extraídos de un o más fuentes, a la vez que pueden ser enviadas a una o más salidas. Un proceso ETL suele ser ejecutado mediante aplicaciones software, aunque también puede ser ejecutado manualmente mediante operadores del sistema.
Un proceso ETL funcional es un proceso automatizado que extrae datos de los sistemas de origen y respeta os estándares de la validación de datos y sus tipos al mismo tiempo que garantiza que estos datos se ajusten a la estructura requerida para los requisitos de salida. También estos datos pueden cargarse en un formato especifico orientado a presentaciones para que los desarrolladores de aplicaciones puedan crear apps y los usuarios tengan una mejor experiencia con la misma.
Los procesos ETL cobraron bastante popularidad en la década de 1970 cuando las empresas y organizaciones comenzaron a utilizar múltiples bases de datos, para almacenar diferentes tipos de información de negociones. Debido a esta creciente necesidad de integrar información en las bases de datos ETL se convirtió en el método estándar y predominante para la extracción de datos de diferentes fuentes seguido de la transformación carga de los mismos.
Un sistema ETL comúnmente integra datos de múltiples aplicaciones y sistemas, desarrollando y respaldando por diferentes proveedores o alojados en un hardware de almacenamiento.
Fases ETL
Extracción.
La primera etapa de un proceso ETL es la extracción de datos, en muchos casos esta parte representa el aspecto más importante de las ETL, ya que la extracción correcta de datos es necesaria para el éxito de los procesos posteriores. Los formatos más comunes de fuentes de datos incluyen bases de datos relaciones, XML, JSON pero también pueden haber estructura de bases de datos no relacionales como el Sistema de gestión de la información (IMS) u otras estructuras de datos como el Método de acceso al almacenamiento virtual (VSAM), hasta incluso formatos extraídos de fuentes externas como web spidering.
El objetivo de esta fase es sintetizar y agrupar toda la información recolectada en una o varias estructuras comunes en las que se almacenen los datos completamente homogeneizados, organizados y listos para la fase de transformación. En la extracción es muy importante la validación de datos para confirmar si provienen de fuentes verificadas y si los valores son los correctos o esperados, si los datos cumplen una serie de reglas de validación, estos son rechazados total o parcialmente. Si hay datos rechazados, estos se devuelven al sistema de origen para un análisis más detallado con el fin de identificar y rectificar los registros incorrectos.
Existen distintas técnicas de extracción de datos, se puede recopilar de forma directa con una petición.
· Registros por usuario
· Formularios de contacto del sitio web
· Sistemas de pago / punto de venta (POS)
· Encuestas / opiniones de usuarios
Transformación
La segunda etapa es la transformación de los datos, este proceso consiste en convertir datos de un formato a otro formato que sea más utilizable por el sistema o la aplicación de destino.
Este proceso puede transformar los datos filtrando, agrupando o separando la información según las reglas que se especifique, logrando así una vista consolidada. El objetivo de esta etapa es lograr el resultado final con más facilidad, es decir la transformación enfrenta desafíos a los fatos de mala calidad.
Carga
La tercera y última etapa es la carga de datos, es cuando el sistema recibe los datos debidamente procesados y los almacena en el destino que se haya definido. El tipo de carga depende de los requisitos de organización, ya sean requisitos de negocio o requisitos técnicos.
-Carga total: siendo la más común, esta carga consiste en la integración de todos los datos dentro de la data warehouse.
-Carga incremental: se emplea para sistemas operacionales que manejan grandes volúmenes de datos, en esta carga se recuperan los registros anteriores a la última carga realizada.
-Control de cambios: este método de carga es el más empleado ya que funciona directamente sobre el sistema de origen, entregando los datos de una forma más sencilla y eficiente. (Conde, 2022)
El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave:
Integración
Big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, como “extraer, transformar y cargar” (extract, transform, load, ETL), generalmente no están a la altura en dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías.
Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos.
Gestión
Big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premises o en ambos. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento. La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.
Análisis
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas. Construya modelos de datos con aprendizaje automático e inteligencia artificial. Ponga sus datos a trabajar. (Oracle, 2023)
La tendencia e-Learning utilizan dispositivos que, a través de una cuenta, se puede acceder a recursos de aprendizaje, tanto de interés personal como los solicitados por las empresas o entidades educativas; que regularmente envían a realizar estas capacitaciones para el mejoramiento de la calidad del trabajo de sus empleados; teniendo en cuenta que algunos de estos cursos conllevan algún costo económico lo cual hace que este autoaprendizaje sea certificado por los entes que ofrecen el servicio. La facilidad que estas tienen suele ser muy beneficiosas, puesto que, con un poco de disponibilidad de tiempo (a cualquier hora que esta sea) se puede aprender. (Loor, Guarda et al., 2019)
El sistema de e-Learning es un enfoque educativo que utiliza dispositivos tecnológicos, como computadoras personales, tablets y dispositivos móviles, para brindar formación a través de la conexión a Internet. Esta modalidad de enseñanza puede abarcar desde educación básica hasta programas avanzados o complementarios. La principal ventaja del e-Learning es su flexibilidad de tiempo, ya que los estudiantes pueden acceder al contenido de acuerdo con su disponibilidad horaria. Este enfoque permite a las empresas optimizar sus gastos en capacitación, ya que los empleados no necesitan ausentarse de sus tareas para asistir a un lugar físico de formación. Además, estas plataformas de e-Learning ofrecen certificaciones que son valiosas en el ámbito laboral, lo que las hace muy útiles tanto para estudiantes como profesionales. (Loor, Guarda et al., 2019)
Al hablar de servicios basados en localización uno de los aspectos principales es determinar la ubicación del usuario móvil dentro del área de cobertura, y ésta puede ser bastante variable pasando de ambientes rurales o semirurales a ciudades e inclusive ambientes al interior de construcciones.
Los sistemas de localización se basan en una serie de técnicas básicas:
Celda de Origen (COO - Cell of Origin): Al estar el dispositivo móvil (MS - Mobile Station) en el área de cobertura de una estación de la red, por ejemplo, una célula de una red GSM - Global System for Mobile Communication, si la celda tiene una identificación particular esta puede usarse para determinar la localización del móvil.
Tiempo de llegada (ToA - Time of Arrival ) o Diferencia de Tiempo de llegada (TDoA – Time Difference of Arriva ): En ToA la distancia entre el dispositivo móvil y la estación base (BS - Base Station) se mide a partir del tiempo que toma en propagarse la señal entre ellos, para éste cálculo se requieren Uso de internet Tecnologías verdes.
Se pueden definir los servicios basados en localización como servicios que permiten ofrecer a los usuarios un valor agregado, basados en la información de localización de los dispositivos móviles.
A principios de la década se empezó a dar impulso a los sistemas basados en localización por un lado por una determinación de la FCC – Federal Communication Commission en Estados unidos para la implementación de E911 - Extenden 911. Ver http://www.fcc.gov/911/enhanced para redes móviles (2001) y en Asia NTT DoCoMo (primer operador móvil japonés) lanzó un servicio de localización de automotores que permitía hallar la ubicación del automóvil y cuanto tardaría en llegar a su destino. Con el tiempo en otros países se han ido implementando servicios basados en localización, pero, aunque es un producto promisorio aún no ha alcanzado una posición dominante en los servicios de valor agregado. (Castañeda et al., 2006)
El cloud computing es una infraestructura que permite la entrega y provisión de servicios de tecnologías de la información y comunicación a través de la red. En los últimos años, ha ganado considerable importancia y se espera que siga creciendo en el futuro. Tanto los usuarios individuales como las empresas se verán afectados por esta tendencia, ya que cambiará la forma en que utilizan las tecnologías de la información y comunicación.
El proceso de comunicación tiene un origen y un destino definidos, donde un usuario o proceso inicia una transacción y un servidor proporciona una respuesta. Sin embargo, el camino que la información seguirá entre estos dos puntos está sujeto a reglas establecidas por un protocolo técnico como TCP, pero sus resultados son impredecibles de antemano. Aunque podemos tener una idea de la ruta que tomará la información, no podemos estar completamente seguros.
Cuando la nube comienza a tener capacidad de procesamiento de información además de su función como medio de transporte, se añade el término "computing". Sin embargo, es importante tener en cuenta que la capacidad de procesamiento no recae directamente en la nube, sino en aplicaciones, plataformas e infraestructuras disponibles en la Red. En ciertos aspectos, estas aplicaciones y plataformas se comportan de manera similar a los dispositivos en la nube mencionados anteriormente.
El cloud computing implica que el procesamiento de la información se ve afectado por ciertas características, lo que tiene como consecuencia que el origen y, especialmente, el destino de una transacción deje de tener valores absolutos y pasen a tener valores relativos. Esto significa que la información no siempre se encuentra en el lugar donde parece estar, y no siempre se procesa donde parece estar siendo procesada.
La definición de cloud computing que generalmente sirve de base para dotar de contenido a este concepto es la del NISTwww1 (Instituto Nacional de Estándares y Tecnologías, una agencia del US Department of Commerce, creada en 1901). La última versión de esta definición de cloud computing elaborada por el NIST es de julio del 2009.
Según esta definición, hay 5 características que definen el cloud computing:
• Autoservicio: el usuario puede utilizar más capacidades de procesamiento o almacenamiento de la información, sin pedirlo expresamente al proveedor del servicio.
• Amplio acceso a la Red: se puede acceder a ésta desde diferentes dispositivos y redes.
• Agrupación y reserva de recursos: hay un conjunto de recursos compartidos por los usuarios, de acuerdo con sus necesidades puntuales, que implica que en cada momento los recursos reservados puedan ser diferentes.
• Rapidez y elasticidad: se puede acceder a los nuevos recursos de manera inmediata y aparentemente ilimitada.
• Servicio medible y supervisado: se controla el uso y en todo momento se puede conocer, de manera transparente, el nivel de recursos utilizado. (Miralles, 2010)
Serrano-Cobos, J. (2014). Big data y analítica web. Estudiar las corrientes y pescar en un océano de datos. Profesional de la Información, 23(6), 561-566.
Oracle, 2023 https://www.oracle.com/mx/big-data/what-is-big-data/
IBM, 2023 https://www.ibm.com/mx-es/topics/nosql-databases
Zeebaree, SR, Shukur, HM, Haji, LM, Zebari, RR, Jacksi, K. y Abas, SM (2020). Características y análisis de los sistemas distribuidos hadoop. Informes tecnológicos de la Universidad de Kansai , 62 (4), 1555-1564.
Sanchez Ríos, D. F. (2018). Manual práctico para el aprendizaje del Big Data.
Loor, C., Guarda, T., Villao, F., Bustos, S., Torres, W., Sanchez, J., ... & Banchon, E. (2019). Tendencias de la Tecnología e-Learning. Revista Ibérica de Sistemas e Tecnologias de Informação, (E18), 294-301.
Aguilar, L. J. (2019). Inteligencia de negocios y analítica de datos: una visión global de Business Intelligence & Analytics. Alpha Editorial.
Conde Ramírez, D. (2022). Diseño de un framework de análisis de datos abiertos mediante un proceso ETL.
Castañeda, Hernán A.; Gómez, Juan D.; Leal, Alexander Proveedor de Servicios Basados en Localización para Dispositivos Móviles Revista Avances en Sistemas e Informática, vol. 3, núm. 1, junio, 2006, pp. 13-19 Universidad Nacional de Colombia, Medellín, Colombia.
Miralles, R. (2010). Cloud computing y protección de datos. IDP. Revista de Internet, Derecho y Política, (11), 14-23.