Text Mining 2017

Segundo cuatrimestre 2017

Lunes, Miércoles y/o Viernes de 11 a 13

Aula 11

FaMAF - UNC

Grupo de Procesamiento del Lenguaje Natural

Para comunicación, háganse una cuenta en el slack de FaMAF: https://famaf-unc.slack.com . Pueden usar cualquier cuenta @unc.edu.ar o @famaf.unc.edu.ar.

En este curso vamos a ver técnicas de Minería de Datos aplicadas a problemas de Procesamiento del Lenguaje Natural. No es necesario tener conocimientos previos ni de Minería de Datos, ni de Procesamiento del Lenguaje Natural, ya que vamos a introducir ambas áreas.

El objetivo del curso es ofrecer una perspectiva de los retos, dificultades y soluciones que se encuentran en este área. Se darán los fundamentos teóricos necesarios para entender y dimensionar esos retos. Se realizarán algunos trabajos prácticos que ayuden a dimensionar la complejidad de las soluciones.

Presentaremos fundamentos de aprendizaje automático, un poco de supervisado pero más de no supervisado y especialmente de semi-supervisado.

Vamos a trabajar principalmente con artículos científicos publicados en conferencias del área, no con libros de texto, aunque vamos a recurrir a las referencias cuando hablemos de las técnicas.

El tema especial de este año será el procesamiento de texto legal, especialmente en su dimensión argumentativa. Esto significa que voy a tratar de que los datasets y las tareas sean específicas del dominio legal. También voy a proponer proyectos finales de la materia principalmente sobre este tema, aunque todos sabemos que acepto proyectos en temas muy diversos.

La evaluación de la materia consiste en:

20% un examen teórico al final del curso

20% un práctico chico sobre clustering

6/9 presentación
27/9 entrega de informe y resultados

20% otro práctico chico sobre feature selection

13/9 presentación
4/10 entrega de informe y resultados

50% un proyecto grande

27/9 presentación de proyecto(s)
20/10 definición de grupos y proyectos
27/10 - 17/11 reuniones de progreso
20/11 - 24/11 presentación oral

Google Sites

Report abuse