Text Data Analytics

Contenido

1. Introducción

- ¿Qué es Big Data y Data Analytics?
- Ley de Amdahl’s
- Retos de Big Data
- Ejemplos y casos de uso

2. Introducción a Python 3

3. Almacenamiento de grandes volúmenes de datos

- Introducción a No-SQL
- Tipos de bases de datos No-SQL
- Ejemplos y casos de uso

4. Preprocesamiento de texto

- Stripping
- Normalización de textos y Eliminación de Stop words
- Lematización de los términos

5. Representación de documentos

- Vector Space Model (VSM)
- Bag of Words
- Normalización TF, TF-IDF
- Medidas de similitud
  - Similitud Coseno
  - Intersección entre histogramas

6. Predicción y analítica de documentos de texto

- Fundamentos de aprendizaje de máquina
- Preprocesamiento y análisis de variables
- Técnicas de agrupamiento (Clustering)
- Non-negative Matrix Factorization (NMF)

7. Aplicaciones

- Búsqueda de información
- Sistemas de recomendación

Registro de curso: https://goo.gl/forms/CRrfjhBNmcpCe4aE2

Programación

Semana

Sesión

Fecha

Feb 9

Feb 10

Feb 16

Feb 17

Feb 23

Feb 24

Tema

Presentación del curso

Videos: intro facts banking healthcare marketing

Introducción a Big Data Analytics

Análisis de Texto: Vector Space Model (VSM) y Bag of Words (BoW)

Similitud Coseno, Normalización TF-IDF, Índice invertido

Notebook

Entregas

T1: Buscador de texto por palabras claves usando VSM y Similitud Coseno

[Ejemplo Conjunto de Datos: Reuters-21578 dataset]

Almacenamiento de grandes Volúmenes de Datos

Bases de datos No-SQL

Non-negative Matrix Factorization

K-means

T2: Implementación en el buscador utilizando MongoDB para almacenamiento

Aplicaciones de NMF en análisis de texto e imágenes

Notebook: Faces decomposition (sklearn)

Notebook:Topic extraction with NMF (sklearn)

T3: Adaptar la implementación NMF de sklearn para la extracción de temas del conjunto de datos trabajados en T1 y T2

Google Spreadsheet

Lugar y Horario de clases

Viernes - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
- 6 p.m. a 10 p.m.
Sábados - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
- 8 a.m. a 12 m. y 1 p.m. a 5 p.m

Evaluación

Talleres 60%
Proyecto 30%
- Presentación (Pecha-Kucha) y Demo
- Exposición - Tema relacionado al curso 10%
  - Presentación (Pecha-Kucha)

Exposiciones

- Yurany Cortes - Maria fernanda Otalora
- HBase
- Jean Pierre Leyton, Miguel Alberto Pedraza
- Apache Hive
- Julian David Varela Prieto y Miguel Angel Avedaño Castañeda
- Apache Hadoop
- Deyber Antonio Jimenez Gordillo - Karol Daniela Jimenez Gordillo
  - Visualización de datos con D3.js
- Wilmar Martín - Yenner Robayo
- Amazon Web Services
- Pedro Alomía
- MLLib (Machine learning con Spark)
- Omar yamid Ocampo rivera, Jeison Andrés Carrillo Alvarado
  - Cassandra
- Javier Ricardo Rojas
  - HDF5

Temas de Exposición y Demostración

HBase
MongoDB
Cassandra
HDF5
Hadoop
Apache Pig
Apache Hive
Spark
Compute Unified Device Architecture (CUDA)
Visualización de datos con D3
Apache Mahout
MLLib (Machine learning con Spark)
Amazon Web Services

Propuestas de proyectos

- Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/
- Sistema de recomendación de libros usando Amazon
- Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.
- Buscador de soluciones a problemas de código usando StackOverflow
- Anotador automático de etiquetas en StackOverflow en Español
- Buscador de similitud de imágenes para detección plagio de logos
- Buscador de documentos de texto para detección de plagio (copia literal)
- Análisis de letras de canciones y su relación con el genero y popularidad (vistas o likes)
- Visualizador de colecciones de imágenes por similitud visual

Bibliografía

[LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]
[IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]
[LAM2010], Lam, Hadoop in Action, Manning [web page]
[WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]
[GATES2011], Gates, Programming Pig, O'Reilly [web site]
[ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]

Lecturas complementarias

[Vance2015] Ashlee Vance. Elon Musk: El empresario que anticipa el futuro. Edit. Peninsula. 448 págs. ISBN: 9788499425191 [amazon]
[Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]
[Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]
[Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]

Recursos

Robomongo (UI admin): https://robomongo.org
Imagen Lubuntu: https://sourceforge.net/projects/virtualboximage/files/Lubuntu/12.10/lubuntu1210.7z/download
Tutorial Git: http://blog.santiagobasulto.com.ar/programacion/2011/11/27/tutorial-de-git-en-espanol.html
- Tutorial Latex en Overleaf: https://www.overleaf.com/latex/learn/free-online-introduction-to-latex-part-1#.VPhuFkKIeyM
- Tutorial Markdown: http://www.markdown-tutorial.com/
- Curso de Python en Coursera: https://es.coursera.org/learn/python

Cursos en linea

- Mining Massive Datasets, Coursera
- Intro to Data Science, UDACITY (parte abierta)
- Intro to Hadoop and Map-Reduce, en UDACITY (parte abierta)
- Making Sense of Data, en Google
- Introduction to Data Analysis, en Coursera
- Big Data Mini Course, en Berkeley

Software

Notas