Big Data Analytics (Analítica de Grandes Volúmenes de Datos)

Objetivos

    • General

    • XXXX

    • Específicos

Metodología

    • xxx

Contenido

    1. Introducción

    • ¿Qué es BigData?

    • Ley de Amdahl’s

    • Retos de BigData

    • Ejemplos y casos de uso

  1. Almacenamiento de grandes volúmenes de datos

    • Introducción a No-SQL

    • HBase

    • MongoDB

    • Cassandra

    • HDF5

    • Ejemplos y casos de uso

  2. Computación distribuidas y de alto desempeño

    • MapReduce

    • Hadoop

    • Apache Pig

    • Apache Hive

    • Spark

    • Compute Unified Device Architecture (CUDA), Computación paralela en GPU

  3. Predicción y analítica de datos

    • Fundamentos de aprendizaje de máquina

    • Preprocesamiento y análisis de variables

    • Representación de datos Bag of Words y Bag of Features

    • Clustering

    • Visualización de datos con D3

    • Apache Mahout

    • MLLib (Machine learning con Spark)

    • Amazon Web Services

  4. Aplicaciones

    • Análisis de texto y lenguaje natural

    • Análisis de imágenes

    • Análisis de semántica latente

    • Sistemas de recomendación

Registro de curso: https://goo.gl/forms/6FgyF5iw9RhanjH93

Programación

Google Spreadsheet

Lugar y Horario de clases

  • Viernes - Lugar: Laboratorio de Análisis de Información (LAIS), Centro de Estudios Epidemiológicos de la Orinoquía (CEEO) - Sede Urbana

    • 6 p.m. a 10 p.m.

  • Sábados - Lugar: Sala E Edif. Leonardo da Vinci - Sede Barcelona

    • 8 a.m. a 12 m. y 1 p.m. a 5 p.m

Evaluación

  • Talleres 60%

  • Exposición - Demo 10%

  • Miniproyecto 30%

Temas de Exposición y Demostración

  • HBase

  • MongoDB

  • Cassandra

  • HDF5

  • Hadoop

  • Apache Pig

  • Apache Hive

  • Spark

  • Compute Unified Device Architecture (CUDA)

  • Visualización de datos con D3

  • Apache Mahout

  • MLLib (Machine learning con Spark)

  • Amazon Web Services

Propuestas de proyectos

    • Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/

    • Sistema de recomendación de libros usando Amazon

    • Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.

    • Buscador de soluciones a problemas de código usando StackOverflow

    • Anotador automático de etiquetas en StackOverflow en Español

    • Buscador de similitud de imágenes para detección plagio de logos

    • Visualizador de colecciones de imágenes por similitud visual

Bibliografía

  • [LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]

  • [IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]

  • [LAM2010], Lam, Hadoop in Action, Manning [web page]

  • [WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]

  • [GATES2011], Gates, Programming Pig, O'Reilly [web site]

  • [ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]

Lecturas complementarias

  • [Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]

  • [Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]

  • [Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]

Recursos

Cursos en linea

Software

Notas