Cada mañana, el presidente de México realiza un discurso donde habla de los diferentes temas de la agenda política. En este sitio, actualizamos un algoritmo de descubrimiento de tópicos para visualizar cuales son las palabras mas relevantes de sus discursos, y en general en que temas se centran sus pláticas.
Para este proyecto de Procesamiento de Lenguaje Natural de los discursos de Andrés Manuel López Obrador, presidente de México, se emplearon los siguientes tres discursos publicados en su sitio oficial:
El lenguaje empleado para este análisis es Python. De inicio, se utilizó la librería Beautifulsoup para realizar el webscarpping de los discursos publicados, que encuentra y devuelve en un arreglo todos los objetos con etiqueta article. Después, se empleó la librería nltk para establecer las stopwords en español e incluir palabras que no agregan valor al análisis. Posteriormente, con la misma librería, un tokenizer se utilizó para retirar los signos ortográficos y mayúsculas.
Con los textos de los discursos ya homogeneizados, se pobló el diccionario, que es una colección de todas las palabras empleadas en los discursos, y se generó el corpus. El corpus es una matriz binaria que nos permite conocer la recurrencia de cada palabra del diccionario en cada discurso respectivamente. A continuación, con la librería gensim, se hizo un modelo LDA para encontrar cuatro tópicos relevantes. Finalmente, se generó una visualización dinámica de los tópicos usando la librería pyLADvis
Al 9 de Enero del 2019, se encuentran 6 tópicos principales.