Text Data Analytics

Contenido

1. Introducción

    • ¿Qué es Big Data y Data Analytics?

    • Ley de Amdahl’s

    • Retos de Big Data

    • Ejemplos y casos de uso

2. Introducción a Python 3

3. Almacenamiento de grandes volúmenes de datos

    • Introducción a No-SQL

    • Tipos de bases de datos No-SQL

    • Ejemplos y casos de uso

4. Preprocesamiento de texto

    • Stripping

    • Normalización de textos y Eliminación de Stop words

    • Lematización de los términos

5. Representación de documentos

    • Vector Space Model (VSM)

    • Bag of Words

    • Normalización TF, TF-IDF

    • Medidas de similitud

      • Similitud Coseno

      • Intersección entre histogramas

6. Predicción y analítica de documentos de texto

    • Fundamentos de aprendizaje de máquina

    • Preprocesamiento y análisis de variables

    • Técnicas de agrupamiento (Clustering)

    • Non-negative Matrix Factorization (NMF)

7. Aplicaciones

    • Búsqueda de información

    • Sistemas de recomendación

Registro de curso: https://goo.gl/forms/CRrfjhBNmcpCe4aE2

Programación

Semana

1

1

2

2

3

3

Sesión

1

2

3

4

5

6

Fecha

Feb 9

Feb 10

Feb 16

Feb 17

Feb 23

Feb 24

Tema

Presentación del curso

Videos: intro facts banking healthcare marketing

Introducción a Big Data Analytics

Análisis de Texto: Vector Space Model (VSM) y Bag of Words (BoW)

Similitud Coseno, Normalización TF-IDF, Índice invertido

Notebook

Entregas

Non-negative Matrix Factorization

K-means

T2: Implementación en el buscador utilizando MongoDB para almacenamiento

Aplicaciones de NMF en análisis de texto e imágenes

Notebook: Faces decomposition (sklearn)

Notebook:Topic extraction with NMF (sklearn)

T3: Adaptar la implementación NMF de sklearn para la extracción de temas del conjunto de datos trabajados en T1 y T2

Google Spreadsheet

Lugar y Horario de clases

  • Viernes - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona

    • 6 p.m. a 10 p.m.

  • Sábados - Lugar: Sala GC1 Edif. Albert Einstein - Sede Barcelona

    • 8 a.m. a 12 m. y 1 p.m. a 5 p.m

Evaluación

  • Talleres 60%

  • Proyecto 30%

    • Presentación (Pecha-Kucha) y Demo

    • Exposición - Tema relacionado al curso 10%

      • Presentación (Pecha-Kucha)

Exposiciones

    • Yurany Cortes - Maria fernanda Otalora

    • HBase

    • Jean Pierre Leyton, Miguel Alberto Pedraza

    • Apache Hive

    • Julian David Varela Prieto y Miguel Angel Avedaño Castañeda

    • Apache Hadoop

    • Deyber Antonio Jimenez Gordillo - Karol Daniela Jimenez Gordillo

      • Visualización de datos con D3.js

    • Wilmar Martín - Yenner Robayo

    • Amazon Web Services

    • Pedro Alomía

    • MLLib (Machine learning con Spark)

    • Omar yamid Ocampo rivera, Jeison Andrés Carrillo Alvarado

      • Cassandra

    • Javier Ricardo Rojas

      • HDF5

Temas de Exposición y Demostración

  • HBase

  • MongoDB

  • Cassandra

  • HDF5

  • Hadoop

  • Apache Pig

  • Apache Hive

  • Spark

  • Compute Unified Device Architecture (CUDA)

  • Visualización de datos con D3

  • Apache Mahout

  • MLLib (Machine learning con Spark)

  • Amazon Web Services

Propuestas de proyectos

    • Sistema de recomendación de peliculas y series de TV usando IMDb: http://www.imdb.com/

    • Sistema de recomendación de libros usando Amazon

    • Análisis de sentimientos a partir de redes sociales: Twitter, Facebook, etc.

    • Buscador de soluciones a problemas de código usando StackOverflow

    • Anotador automático de etiquetas en StackOverflow en Español

    • Buscador de similitud de imágenes para detección plagio de logos

    • Buscador de documentos de texto para detección de plagio (copia literal)

    • Análisis de letras de canciones y su relación con el genero y popularidad (vistas o likes)

    • Visualizador de colecciones de imágenes por similitud visual

Bibliografía

  • [LINDYER2010] Lin, Dyer, Data intensive text processing with Map-Reduce, Morgan & Claypool Publishers [book manuscript]

  • [IBM2012] IBM, Understanding Big Data, McGraw-Hill. [download]

  • [LAM2010], Lam, Hadoop in Action, Manning [web page]

  • [WHITE2012], White, Hadoop, the definitive guide, O'Reilly [web site]

  • [GATES2011], Gates, Programming Pig, O'Reilly [web site]

  • [ULLMAN2013], Ullman, Rajamaran, Mining of Massive Datasets, [web site]

Lecturas complementarias

  • [Vance2015] Ashlee Vance. Elon Musk: El empresario que anticipa el futuro. Edit. Peninsula. 448 págs. ISBN: 9788499425191 [amazon]

  • [Isaacson 2014] Walter Isaacson. Los innovadores: Los genios que inventaron el futuro. DEBATE, 2014. 608 págs. ISBN 9788499924663 [amazon][youtube][reseña]

  • [Penrose 1991] Penrose, Roger, La Nueva Mente del Emperador, Mondadori, 1991, ISBN 84-397-1786-5. [pdf] [amazon]

  • [Clarke 1968] Arthur C. Clarke. 2001: A Space Odyssey. 1968. Editorial Hutchinson, New American Library. ISBN: 0-453-00269-2. [amazon]

Recursos

Cursos en linea

Software

Notas