Text Data Analytics
Contenido
1. Introducción
¿Qué es Big Data y Data Analytics?
Ley de Amdahl’s
Retos de Big Data
Ejemplos y casos de uso
2. Introducción a Python 3
3. Almacenamiento de grandes volúmenes de datos
Introducción a No-SQL
Tipos de bases de datos No-SQL
Ejemplos y casos de uso
4. Preprocesamiento de texto
Stripping
Normalización de textos y Eliminación de Stop words
Lematización de los términos
5. Representación de documentos
Vector Space Model (VSM)
Bag of Words
Normalización TF, TF-IDF
Medidas de similitud
Similitud Coseno
Intersección entre histogramas
6. Predicción y analítica de documentos de texto
Fundamentos de aprendizaje de máquina
Preprocesamiento y análisis de variables
Técnicas de agrupamiento (Clustering)
Non-negative Matrix Factorization (NMF)
7. Aplicaciones
Búsqueda de información
Sistemas de recomendación
Registro de curso: https://goo.gl/forms/CRrfjhBNmcpCe4aE2
Programación
Semana
1
1
2
2
3
3
Sesión
1
2
3
4
5
6
Fecha
Feb 9
Feb 10
Feb 16
Feb 17
Feb 23
Feb 24
Tema
Videos: intro facts banking healthcare marketing
Introducción a Big Data Analytics
Análisis de Texto: Vector Space Model (VSM) y Bag of Words (BoW)
Similitud Coseno, Normalización TF-IDF, Índice invertido
Entregas
T1: Buscador de texto por palabras claves usando VSM y Similitud Coseno
[Ejemplo Conjunto de Datos: Reuters-21578 dataset]
Non-negative Matrix Factorization
K-means
T2: Implementación en el buscador utilizando MongoDB para almacenamiento
Aplicaciones de NMF en análisis de texto e imágenes
Notebook: Faces decomposition (sklearn)
Notebook:Topic extraction with NMF (sklearn)
T3: Adaptar la implementación NMF de sklearn para la extracción de temas del conjunto de datos trabajados en T1 y T2
Lugar y Horario de clases
Viernes - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
6 p.m. a 10 p.m.
Sábados - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
8 a.m. a 12 m. y 1 p.m. a 5 p.m
Evaluación
Talleres 60%
Proyecto 30%
Presentación (Pecha-Kucha) y Demo
Exposición - Tema relacionado al curso 10%
Presentación (Pecha-Kucha)
Exposiciones
Yurany Cortes - Maria fernanda Otalora
Jean Pierre Leyton, Miguel Alberto Pedraza
Julian David Varela Prieto y Miguel Angel Avedaño Castañeda
Deyber Antonio Jimenez Gordillo - Karol Daniela Jimenez Gordillo
Visualización de datos con D3.js
Wilmar Martín - Yenner Robayo
Pedro Alomía
Omar yamid Ocampo rivera, Jeison Andrés Carrillo Alvarado
Cassandra
Javier Ricardo Rojas
HDF5
Temas de Exposición y Demostración
HBase
MongoDB
Cassandra
HDF5
Hadoop
Apache Pig
Apache Hive
Spark
Compute Unified Device Architecture (CUDA)
Visualización de datos con D3
Apache Mahout
MLLib (Machine learning con Spark)
Amazon Web Services
Propuestas de proyectos
Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/
Sistema de recomendación de libros usando Amazon
Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.
Buscador de soluciones a problemas de código usando StackOverflow
Anotador automático de etiquetas en StackOverflow en Español
Buscador de similitud de imágenes para detección plagio de logos
Buscador de documentos de texto para detección de plagio (copia literal)
Análisis de letras de canciones y su relación con el genero y popularidad (vistas o likes)
Visualizador de colecciones de imágenes por similitud visual
Bibliografía
[LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]
[IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]
[LAM2010], Lam, Hadoop in Action, Manning [web page]
[WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]
[GATES2011], Gates, Programming Pig, O'Reilly [web site]
[ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]
Lecturas complementarias
[Vance2015] Ashlee Vance. Elon Musk: El empresario que anticipa el futuro. Edit. Peninsula. 448 págs. ISBN: 9788499425191 [amazon]
[Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]
[Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]
[Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]
Recursos
Robomongo (UI admin): https://robomongo.org
Imagen Lubuntu: https://sourceforge.net/projects/virtualboximage/files/Lubuntu/12.10/lubuntu1210.7z/download
Tutorial Git: http://blog.santiagobasulto.com.ar/programacion/2011/11/27/tutorial-de-git-en-espanol.html
Tutorial Latex en Overleaf: https://www.overleaf.com/latex/learn/free-online-introduction-to-latex-part-1#.VPhuFkKIeyM
Tutorial Markdown: http://www.markdown-tutorial.com/
Curso de Python en Coursera: https://es.coursera.org/learn/python
Cursos en linea
Mining Massive Datasets, Coursera
Intro to Data Science, UDACITY (parte abierta)
Intro to Hadoop and Map-Reduce, en UDACITY (parte abierta)
Making Sense of Data, en Google
Introduction to Data Analysis, en Coursera
Big Data Mini Course, en Berkeley
Software
Notas