Text Data Analytics
Contenido
1. Introducción
¿Qué es Big Data y Data Analytics?
Ley de Amdahl’s
Retos de Big Data
Ejemplos y casos de uso
2. Introducción a Python 3
3. Preprocesamiento de texto
Stripping
Normalización de textos y Eliminación de Stop words
Lematización de los términos
4. Representación de documentos
Vector Space Model (VSM)
Bag of Words
Normalización TF, TF-IDF
Medidas de similitud
Similitud Coseno
Intersección entre histogramas
5. Predicción y analítica de documentos de texto
Fundamentos de aprendizaje de máquina
Preprocesamiento y análisis de variables
Técnicas de agrupamiento (Clustering)
Non-negative Matrix Factorization (NMF)
6. Aplicaciones
Búsqueda de información
Sistemas de recomendación
Registro de curso: https://goo.gl/forms/qG0ViJIuTWpVfQGr2
Programación
Semana
1
1
2
2
3
3
Sesión
1
2
3
4
5
6
Fecha
Nov 23
Nov 24
Nov 30
Dic 1
Dic 7
Dic 8
Tema
Videos: intro facts banking healthcare marketing
Introducción a Big Data Analytics
Desarrollo Taller 1
Entregas
Análisis de Texto: Vector Space Model (VSM) y Bag of Words (BoW), Similitud Coseno, Normalización TF-IDF, Índice invertido
T1: Buscador de texto por palabras claves usando VSM y Similitud Coseno
[Ejemplo Conjunto de Datos: Reuters-21578 dataset]
T0: Propuesta de proyecto. Elaborar un borrador de propuesta de proyecto de Big Data Analytics:
1. Identificar fuente de datos, tipos de datos, formato de los datos, características y ejemplos.
2. Descripción de la motivación, problema y justificación.
3. Definición de objetivo y alcance.Diseño preliminar del esquema del sistema propuesto. (Puede usar herramientas como Cacoo https://cacoo.com/es/ o LucidChart https://www.lucidchart.com/pages/es)
Aprendizaje supervisado
- Clasificación
- Arboles de decisión
Aprendizaje no supervisado
- Non-negative Matrix Factorization
- K-means
T2: Adaptar la implementación NMF de sklearn para la extracción de temas del conjunto de datos trabajados en T1
Aplicaciones de NMF en análisis de texto e imágenes
Notebook: Faces decomposition (sklearn)
Notebook:Topic extraction with NMF (sklearn)
Lugar y Horario de clases
Viernes - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
6 p.m. a 10 p.m.
Sábados - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
8 a.m. a 12 m. y 1 p.m. a 5 p.m
Evaluación
Talleres 60%
Proyecto 30%
Presentación (Pecha-Kucha) y Demo - Formulario de Evaluación de la Exposición del Proyecto
Exposición - Tema relacionado al curso 10%
Presentación (Pecha-Kucha) - Formulario de Evaluación de la Exposición del Tema Libre
Temas de Exposición y Demostración:
HBase - Edwin Lacharme y Daniel Muñoz
MongoDB - Mike Brian Olivera y Jaiver Lesmes Mora
Cassandra
HDF5 - José Leonardo Gómez y Julián Ramos
Hadoop - Brayan Herrera y Juan Sebastian Vanegas
Apache Pig
Apache Hive
Spark
Compute Unified Device Architecture (CUDA)
Visualización de datos con D3 - Jesús Andes Vargas Vanegas y Omar Baquero
Apache Mahout
MLLib (Machine learning con Spark)
Amazon Web Services - Juan Camilo Fonseca y Diego Alejandro Asencio
Propuestas de proyectos
Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/
Sistema de recomendación de libros usando Amazon
Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.
Buscador de soluciones a problemas de código usando StackOverflow
Anotador automático de etiquetas en StackOverflow en Español
Buscador de similitud de imágenes para detección plagio de logos
Buscador de documentos de texto para detección de plagio (copia literal)
Análisis de letras de canciones y su relación con el genero y popularidad (vistas o likes)
Visualizador de colecciones de imágenes por similitud visual
Bibliografía
[LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]
[IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]
[LAM2010], Lam, Hadoop in Action, Manning [web page]
[WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]
[GATES2011], Gates, Programming Pig, O'Reilly [web site]
[ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]
Lecturas complementarias
[Vance2015] Ashlee Vance. Elon Musk: El empresario que anticipa el futuro. Edit. Peninsula. 448 págs. ISBN: 9788499425191 [amazon]
[Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]
[Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]
[Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]
Recursos
Robomongo (UI admin): https://robomongo.org
Imagen Lubuntu: https://sourceforge.net/projects/virtualboximage/files/Lubuntu/12.10/lubuntu1210.7z/download
Tutorial Git: http://blog.santiagobasulto.com.ar/programacion/2011/11/27/tutorial-de-git-en-espanol.html
Tutorial Latex en Overleaf: https://www.overleaf.com/latex/learn/free-online-introduction-to-latex-part-1#.VPhuFkKIeyM
Tutorial Markdown: http://www.markdown-tutorial.com/
Curso de Python en Coursera: https://es.coursera.org/learn/python
Cursos en linea
Mining Massive Datasets, Coursera
Intro to Data Science, UDACITY (parte abierta)
Intro to Hadoop and Map-Reduce, en UDACITY (parte abierta)
Making Sense of Data, en Google
Introduction to Data Analysis, en Coursera
Big Data Mini Course, en Berkeley
Software
Notas