Big Data Analytics (Analítica de Grandes Volúmenes de Datos)
Objetivos
General
XXXX
Específicos
Metodología
xxx
Contenido
Introducción
¿Qué es BigData?
Ley de Amdahl’s
Retos de BigData
Ejemplos y casos de uso
Almacenamiento de grandes volúmenes de datos
Introducción a No-SQL
HBase
MongoDB
Cassandra
HDF5
Ejemplos y casos de uso
Computación distribuidas y de alto desempeño
MapReduce
Hadoop
Apache Pig
Apache Hive
Spark
Compute Unified Device Architecture (CUDA), Computación paralela en GPU
Predicción y analítica de datos
Fundamentos de aprendizaje de máquina
Preprocesamiento y análisis de variables
Representación de datos Bag of Words y Bag of Features
Clustering
Visualización de datos con D3
Apache Mahout
MLLib (Machine learning con Spark)
Amazon Web Services
Aplicaciones
Análisis de texto y lenguaje natural
Análisis de imágenes
Análisis de semántica latente
Sistemas de recomendación
Registro de curso: https://goo.gl/forms/6FgyF5iw9RhanjH93
Programación
Lugar y Horario de clases
Viernes - Lugar: Laboratorio de Análisis de Información (LAIS), Centro de Estudios Epidemiológicos de la Orinoquía (CEEO) - Sede Urbana
6 p.m. a 10 p.m.
Sábados - Lugar: Sala E Edif. Leonardo da Vinci - Sede Barcelona
8 a.m. a 12 m. y 1 p.m. a 5 p.m
Evaluación
Talleres 60%
Exposición - Demo 10%
Miniproyecto 30%
Temas de Exposición y Demostración
HBase
MongoDB
Cassandra
HDF5
Hadoop
Apache Pig
Apache Hive
Spark
Compute Unified Device Architecture (CUDA)
Visualización de datos con D3
Apache Mahout
MLLib (Machine learning con Spark)
Amazon Web Services
Propuestas de proyectos
Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/
Sistema de recomendación de libros usando Amazon
Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.
Buscador de soluciones a problemas de código usando StackOverflow
Anotador automático de etiquetas en StackOverflow en Español
Buscador de similitud de imágenes para detección plagio de logos
Visualizador de colecciones de imágenes por similitud visual
Bibliografía
[LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]
[IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]
[LAM2010], Lam, Hadoop in Action, Manning [web page]
[WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]
[GATES2011], Gates, Programming Pig, O'Reilly [web site]
[ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]
Lecturas complementarias
[Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]
[Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]
[Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]
Recursos
Robomongo (UI admin): https://robomongo.org
Imagen Lubuntu: https://sourceforge.net/projects/virtualboximage/files/Lubuntu/12.10/lubuntu1210.7z/download
Tutorial Git: http://blog.santiagobasulto.com.ar/programacion/2011/11/27/tutorial-de-git-en-espanol.html
Tutorial Latex en Overleaf: https://www.overleaf.com/latex/learn/free-online-introduction-to-latex-part-1#.VPhuFkKIeyM
Tutorial Markdown: http://www.markdown-tutorial.com/
Curso de Python en Coursera: https://es.coursera.org/learn/python
Cursos en linea
Mining Massive Datasets, Coursera
Intro to Data Science, UDACITY (parte abierta)
Intro to Hadoop and Map-Reduce, en UDACITY (parte abierta)
Making Sense of Data, en Google
Introduction to Data Analysis, en Coursera
Big Data Mini Course, en Berkeley
Software
Notas