Text Data Analytics

Contenido

1. Introducción

- ¿Qué es Big Data y Data Analytics?
- Ley de Amdahl’s
- Retos de Big Data
- Ejemplos y casos de uso

2. Introducción a Python 3

3. Preprocesamiento de texto

- Stripping
- Normalización de textos y Eliminación de Stop words
- Lematización de los términos

4. Representación de documentos

- Vector Space Model (VSM)
- Bag of Words
- Normalización TF, TF-IDF
- Medidas de similitud
  - Similitud Coseno
  - Intersección entre histogramas

5. Predicción y analítica de documentos de texto

- Fundamentos de aprendizaje de máquina
- Preprocesamiento y análisis de variables
- Técnicas de agrupamiento (Clustering)
- Non-negative Matrix Factorization (NMF)

6. Aplicaciones

- Búsqueda de información
- Sistemas de recomendación

Registro de curso: https://goo.gl/forms/qG0ViJIuTWpVfQGr2

Programación

Semana

Sesión

Fecha

Nov 23

Nov 24

Nov 30

Dic 1

Dic 7

Dic 8

Tema

Presentación del curso

Videos: intro facts banking healthcare marketing

Introducción a Big Data Analytics

Desarrollo Taller 1

Entregas

Análisis de Texto: Vector Space Model (VSM) y Bag of Words (BoW), Similitud Coseno, Normalización TF-IDF, Índice invertido

Notebook

T1: Buscador de texto por palabras claves usando VSM y Similitud Coseno

[Ejemplo Conjunto de Datos: Reuters-21578 dataset]

T0: Propuesta de proyecto. Elaborar un borrador de propuesta de proyecto de Big Data Analytics:

1. Identificar fuente de datos, tipos de datos, formato de los datos, características y ejemplos.

2. Descripción de la motivación, problema y justificación.

3. Definición de objetivo y alcance.Diseño preliminar del esquema del sistema propuesto. (Puede usar herramientas como Cacoo https://cacoo.com/es/ o LucidChart https://www.lucidchart.com/pages/es)

Aprendizaje supervisado

- Clasificación

- Arboles de decisión

Aprendizaje no supervisado

- Non-negative Matrix Factorization

- K-means

T2: Adaptar la implementación NMF de sklearn para la extracción de temas del conjunto de datos trabajados en T1

Aplicaciones de NMF en análisis de texto e imágenes

Notebook: Faces decomposition (sklearn)

Notebook:Topic extraction with NMF (sklearn)

Google Spreadsheet

Lugar y Horario de clases

Viernes - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
- 6 p.m. a 10 p.m.
Sábados - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona
- 8 a.m. a 12 m. y 1 p.m. a 5 p.m

Evaluación

Talleres 60%
Proyecto 30%
- Presentación (Pecha-Kucha) y Demo - Formulario de Evaluación de la Exposición del Proyecto
- Exposición - Tema relacionado al curso 10%
  - Presentación (Pecha-Kucha) - Formulario de Evaluación de la Exposición del Tema Libre

Temas de Exposición y Demostración:

HBase - Edwin Lacharme y Daniel Muñoz
MongoDB - Mike Brian Olivera y Jaiver Lesmes Mora
Cassandra
HDF5 - José Leonardo Gómez y Julián Ramos
Hadoop - Brayan Herrera y Juan Sebastian Vanegas
Apache Pig
Apache Hive
Spark
Compute Unified Device Architecture (CUDA)
Visualización de datos con D3 - Jesús Andes Vargas Vanegas y Omar Baquero
Apache Mahout
MLLib (Machine learning con Spark)
Amazon Web Services - Juan Camilo Fonseca y Diego Alejandro Asencio

Propuestas de proyectos

- Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/
- Sistema de recomendación de libros usando Amazon
- Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.
- Buscador de soluciones a problemas de código usando StackOverflow
- Anotador automático de etiquetas en StackOverflow en Español
- Buscador de similitud de imágenes para detección plagio de logos
- Buscador de documentos de texto para detección de plagio (copia literal)
- Análisis de letras de canciones y su relación con el genero y popularidad (vistas o likes)
- Visualizador de colecciones de imágenes por similitud visual

Bibliografía

[LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]
[IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]
[LAM2010], Lam, Hadoop in Action, Manning [web page]
[WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]
[GATES2011], Gates, Programming Pig, O'Reilly [web site]
[ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]

Lecturas complementarias

[Vance2015] Ashlee Vance. Elon Musk: El empresario que anticipa el futuro. Edit. Peninsula. 448 págs. ISBN: 9788499425191 [amazon]
[Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]
[Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]
[Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]

Recursos

Robomongo (UI admin): https://robomongo.org
Imagen Lubuntu: https://sourceforge.net/projects/virtualboximage/files/Lubuntu/12.10/lubuntu1210.7z/download
Tutorial Git: http://blog.santiagobasulto.com.ar/programacion/2011/11/27/tutorial-de-git-en-espanol.html
- Tutorial Latex en Overleaf: https://www.overleaf.com/latex/learn/free-online-introduction-to-latex-part-1#.VPhuFkKIeyM
- Tutorial Markdown: http://www.markdown-tutorial.com/
- Curso de Python en Coursera: https://es.coursera.org/learn/python

Cursos en linea

- Mining Massive Datasets, Coursera
- Intro to Data Science, UDACITY (parte abierta)
- Intro to Hadoop and Map-Reduce, en UDACITY (parte abierta)
- Making Sense of Data, en Google
- Introduction to Data Analysis, en Coursera
- Big Data Mini Course, en Berkeley

Software

Notas

Page updated

Google Sites

Report abuse