Introducción a Big Data: Marco histórico. Necesidad de análisis sobre grandes volúmenes de información. Data flow vs. network programming tradicional. Patrones de programación. Limitaciones de MapReduce.
Primer uso de Apache Spark con interface Zeppelin.
RDDs: Creación. Transformaciones. Acciones.
Evaluación lazy. Persistencia. Tolerancia a fallas.
Datos indexados distribuidos.
Computación distribuida: nodos, ejecutores, grafo de ejecución, tareas, jobs, etapas, particiones.
Datasets, Dataframes.
Conectores. Uso de datos externos, Base de Datos y Data Warehouse.
Pipelines
Extracción y selección de características.
Métodos de clasificación y clustering.
Selección de modelos e hiperparámetros.
Interfaz SQL para redes (GraphFrames).
Pasaje de mensajes.
Búsqueda Motif.
Algoritmos: BFS, Componentes Conexas, Page Rank, LPA, Shortest Paths
Andy Konwinski, Holden Karau, Matei Zaharia, and Patrick Wendell. Learning Spark: Lightning-Fast Big Data Analysis. O'Reilly Media, Inc. 2015.
Holden Karau, Rachel Warren. High Performance Spark. O'Reilly Media, Inc. 2017.
Rajdeep Dua, Manpreet Singh Ghotra, Nick Pentreath. Machine Learning with Spark. Second Edition. 2017.
Josh Wills, Sandy Ryza, Sean Owen, and Uri Laserson. Advanced Analytics with Spark. 2015.
16 horas sincrónicas + 8 de apoyo
Trabajos prácticos a presentar en notebooks Zeppelin.