Propuesta Curso Diplomatura
Módulo 1 - Introducción (2 hs)
- Introducción a Big Data: Marco histórico. Necesidad de análisis sobre grandes volúmenes de información. Data flow vs. network programming tradicional. Patrones de programación. Limitaciones de MapReduce.
- Primer uso de Apache Spark con interface Zeppelin.
Módulo 2 - Resilient Distributed Dataset (RDD) (2 hs)
- RDDs: Creación. Transformaciones. Acciones.
- Evaluación lazy. Persistencia. Tolerancia a fallas.
Módulo 3 - Conceptos de Computación Distribuida (2hs)
- Datos indexados distribuidos.
- Computación distribuida: nodos, ejecutores, grafo de ejecución, tareas, jobs, etapas, particiones.
Módulo 4 - Interfaz SQL (2hs)
- Datasets, Dataframes.
- Conectores. Uso de datos externos, Base de Datos y Data Warehouse.
Módulo 5 - ML sobre Grandes Volúmenes de Datos (4 hs)
- Pipelines
- Extracción y selección de características.
- Métodos de clasificación y clustering.
- Selección de modelos e hiperparámetros.
Módulo 6 Análisis de Grandes Redes Sociales (4 hs)
- Interfaz SQL para redes (GraphFrames).
- Pasaje de mensajes.
- Búsqueda Motif.
- Algoritmos: BFS, Componentes Conexas, Page Rank, LPA, Shortest Paths
- Andy Konwinski, Holden Karau, Matei Zaharia, and Patrick Wendell. Learning Spark: Lightning-Fast Big Data Analysis. O'Reilly Media, Inc. 2015.
- Holden Karau, Rachel Warren. High Performance Spark. O'Reilly Media, Inc. 2017.
- Rajdeep Dua, Manpreet Singh Ghotra, Nick Pentreath. Machine Learning with Spark. Second Edition. 2017.
- Josh Wills, Sandy Ryza, Sean Owen, and Uri Laserson. Advanced Analytics with Spark. 2015.
16 hs. presenciales + 8 hs. virtuales
Trabajos prácticos a presentar en notebooks Zeppelin.