Infraestructura del Big Data

Figura 10: https://tenor.com/ Fuente: https://tenor.com/view/big-data-gif-25444307

La infraestructura en Big Data es uno de los aspectos más importantes a tener en cuenta a la hora de querer implementar nuestros proyectos, tener definida una infraestructura estable que sea capaz de suplir todas las necesidades y a su vez permita crecer conforme sea necesario y avance el proyecto es primordial, ya que de esto dependerá nuestra capacidad futura de análisis y acción de los sistemas que soportará.

Los siguientes componentes ayudarán a crear la infraestructura necesaria:

🖱️ Aplicaciones Big Data

Son aplicaciones que se adaptan a entornos concretos para dar soporte a problemas específicos.

📚 Herramientas de creación de informes y de visualización

Facilitan la transmisión de la información y conocimiento obtenido de los análsiis de los datos y su comunicación a los usuarios finales.

✅ Análisis (tradicional y avanzado)

Incluye todos los procedimientos que se han señalado en el apartado técnicas de Big Data:

  • Pueden ser de análisis predictivo, que son aquellas que permiten predecir acontecimientos futuros.

  • Pueden ser de análisis de sentimiento o de opinión, que permiten extraer el contenido de un texto indicando realmente su sentido de la opinión o la subjetividad que quiere reflejar.

🔋 Data Warehouse y herramientas analíticas

Los Data Warehouse son estructuras de almacenamiento de datos propios de las instituciones u organizaciones muy comunes antes de que existieran las herramientas de Big Data. En estas estructuras los datos se encuentran organizados y bien estructurados.

🛠️ Bases de datos y herramientas para la organización

Permiten la validación y la estructuración de grandes cantidades de datos en agrupaciones de datos, denominadas colecciones. Dentro de estas herramientas se encuentran las herramientas ETL (Extraction Transformation Load) o herramientas de extracción, trasformación y carga de información, servicios de flujo de datos, servicios de serialización, sistemas de archivos distribuidos y servicios de coordinación, estos dos últimos utilizados para desarrollar sistemas que no se encuentran directamente en una máquina, sino que se utilizan un conjunto de máquinas interconectadas que funcionan como una unidad

📝 Datos estructurados y no estructurados en bases de datos operacionales

Puede incluir todos los datos provenientes de todas las fuentes posibles

🧰 Herramientas de seguridad

Las que se aplican a un sistema de Big Data no difieren mucho de los sistemas tradicionales. Los puntos críticos son los siguientes:

  • La encriptación y cifrado de la información siempre que las bases de datos sean sensibles.

  • Controlar niveles de acceso y permisos de usuario de las herramientas de análisis.

  • Encriptación de comunicaciones y controles de acceso desde sistemas externos al que se encuentra el sistema Big Data.

⚙️ Herramientas de redundancia de datos

Estas herramientas de redundancia permiten que el sistema pueda proporcionar el mismo sistema de respuesta aunque parte del sistema haya caído o se haya producido algún tipo de error.

El siguiente documento representan la cantidad de herramientas, las aplicaciones y los tipos de desarrollo que conforman la infraestructura del Big Data, actualización del 2020.

2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf