Text Data Analytics

Contenido

1. Introducción

    • ¿Qué es Big Data y Data Analytics?

    • Ley de Amdahl’s

    • Retos de Big Data

    • Ejemplos y casos de uso

2. Introducción a Python 3

3. Preprocesamiento de texto

    • Stripping

    • Normalización de textos y Eliminación de Stop words

    • Lematización de los términos

4. Representación de documentos

    • Vector Space Model (VSM)

    • Bag of Words

    • Normalización TF, TF-IDF

    • Medidas de similitud

      • Similitud Coseno

      • Intersección entre histogramas

5. Predicción y analítica de documentos de texto

    • Fundamentos de aprendizaje de máquina

    • Preprocesamiento y análisis de variables

    • Técnicas de agrupamiento (Clustering)

    • Non-negative Matrix Factorization (NMF)

6. Aplicaciones

    • Búsqueda de información

    • Sistemas de recomendación

Registro de curso: https://goo.gl/forms/qG0ViJIuTWpVfQGr2

Programación

Semana

1

1

2

2

3

3

Sesión

1

2

3

4

5

6

Fecha

Nov 23

Nov 24

Nov 30

Dic 1

Dic 7

Dic 8

Entregas

Análisis de Texto: Vector Space Model (VSM) y Bag of Words (BoW), Similitud Coseno, Normalización TF-IDF, Índice invertido

Notebook

T0: Propuesta de proyecto. Elaborar un borrador de propuesta de proyecto de Big Data Analytics:

1. Identificar fuente de datos, tipos de datos, formato de los datos, características y ejemplos.

2. Descripción de la motivación, problema y justificación.

3. Definición de objetivo y alcance.Diseño preliminar del esquema del sistema propuesto. (Puede usar herramientas como Cacoo https://cacoo.com/es/ o LucidChart https://www.lucidchart.com/pages/es)

Aprendizaje supervisado

- Clasificación

- Arboles de decisión

Aprendizaje no supervisado

- Non-negative Matrix Factorization

- K-means

T2: Adaptar la implementación NMF de sklearn para la extracción de temas del conjunto de datos trabajados en T1

Aplicaciones de NMF en análisis de texto e imágenes

Notebook: Faces decomposition (sklearn)

Notebook:Topic extraction with NMF (sklearn)

Google Spreadsheet

Lugar y Horario de clases

  • Viernes - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona

    • 6 p.m. a 10 p.m.

  • Sábados - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona

    • 8 a.m. a 12 m. y 1 p.m. a 5 p.m

Evaluación

Temas de Exposición y Demostración:

  • HBase - Edwin Lacharme y Daniel Muñoz

  • MongoDB - Mike Brian Olivera y Jaiver Lesmes Mora

  • Cassandra

  • HDF5 - José Leonardo Gómez y Julián Ramos

  • Hadoop - Brayan Herrera y Juan Sebastian Vanegas

  • Apache Pig

  • Apache Hive

  • Spark

  • Compute Unified Device Architecture (CUDA)

  • Visualización de datos con D3 - Jesús Andes Vargas Vanegas y Omar Baquero

  • Apache Mahout

  • MLLib (Machine learning con Spark)

  • Amazon Web Services - Juan Camilo Fonseca y Diego Alejandro Asencio

Propuestas de proyectos

    • Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/

    • Sistema de recomendación de libros usando Amazon

    • Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.

    • Buscador de soluciones a problemas de código usando StackOverflow

    • Anotador automático de etiquetas en StackOverflow en Español

    • Buscador de similitud de imágenes para detección plagio de logos

    • Buscador de documentos de texto para detección de plagio (copia literal)

    • Análisis de letras de canciones y su relación con el genero y popularidad (vistas o likes)

    • Visualizador de colecciones de imágenes por similitud visual

Bibliografía

  • [LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]

  • [IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]

  • [LAM2010], Lam, Hadoop in Action, Manning [web page]

  • [WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]

  • [GATES2011], Gates, Programming Pig, O'Reilly [web site]

  • [ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]

Lecturas complementarias

  • [Vance2015] Ashlee Vance. Elon Musk: El empresario que anticipa el futuro. Edit. Peninsula. 448 págs. ISBN: 9788499425191 [amazon]

  • [Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]

  • [Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]

  • [Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]

Recursos

Cursos en linea

Software

Notas