Explicar conceptos clave del ecosistema Big Data: fuentes de datos, ETL/ELT, pipelines, calidad de datos, almacenamiento y consumo.
Diseñar una arquitectura introductoria por capas (staging → core → datamart) para organizar datos con criterios de trazabilidad y reutilización.
Implementar ingesta y carga en PostgreSQL, definiendo estructuras de tablas y controles mínimos de integridad (tipos, claves, restricciones básicas, performance).
Construir transformaciones reproducibles mediante scripts y consultas SQL, documentando decisiones de modelado y supuestos.
Orquestar el pipeline con Apache Airflow, comprendiendo DAGs, tareas, dependencias, ejecuciones y análisis de logs.
Aplicar validaciones básicas de calidad (nulos, rangos, duplicados, consistencia de campos) y registrar resultados para seguimiento.
Versionar y documentar el proyecto usando Git/GitHub y un README técnico (estructura, ejecución, parámetros, evidencia).
Preparar una salida orientada a consumo analítico, introduciendo el concepto de KPIs y visualización (por ejemplo, con Power BI) a nivel inicial.
Comparar enfoques de implementación (low-code con Pentaho PDI vs. enfoque programático con Python/Airflow) identificando ventajas y limitaciones.