Aplicación de ML sobre información georeferenciada. Predicción frecuencia de frecuencia de corts eléctricos

Ramiro Caro

En este proyecto nuestro objetivo va a ser predecir la calidad de servicio prestada por una distribuidora de energía, basándonos en información sobre la infraestructura eléctrica.

Estos datos comprenden consumidores, transformadores, líneas de transmisión, y otros datos, de los cuales se tiene información estructurada y también su disposición geográfica.


El plan es aplicar diversas formas de preprocesamiento para lograr capturar la disposición geográfica de los elementos, y sus relaciones espaciales de una forma que sea consumible para los algoritmos de Machine Learning.


Para esto usaremos herramientos como Fiona, Shapely, Geopandas, y Networkx.

Este tema es interesante porque…

Me parece interesante trabajar con este dataset porque nos permite trabajar con datos georeferenciados, o sea que tienen una componente espacial que debemos ser capaces de capturar en un formato estructurado.

Durante el proyecto debemos aplicar diversas técnicas de preparación y preprocesamiento de datos. La información se encuentra en varias tablas independientes que podemos relacionar para aumentar la información.

También existe la posibilidad de desarrollar visualizaciones que permitan graficar la estructura de los datos y el resultado obtenido.


Trataremos de responder algunas de las siguientes preguntas:

Los datos

Si querés inspeccionar el conjunto de datos, lo encontrarás en https://github.com/ramirojc/Mentoria/

Hitos de la mentoría

22/6 práctico de análisis y visualización, que consistirá en una exploración inicial de los datos. Identificar el formato en el que se entrega la información, encontrar las mejores herramientas para manipularlo. A partir de allí, hacer un análisis exploratorio de los tipos de variables y distribuciones estadísticas, identificación de variable de salida, cálculo de correlaciones, etc.

Visualización de funciones de densidad de probabilidad de diferentes variables.

Matrices de correlación.

Diagramas de caja para detección de Outliers.

Introducción a la visualización en mapas.

19/7 práctico de Análisis Exploratorio y Curación de Datos, que consistirá en…

Carga de datos: Codificaciones, Caracteres Especiales, formatos.

Clasificación de tipos de variables en continuas, ordinales y categóricas.

Métodos de normalización de variables continuas.

Codificación de variables ordinales y categóricas.

Imputación de valores inválidos y outliers.

Adicionamiento de datos externos.

Agregación de datos.

16/8 práctico de introducción al aprendizaje automático, que consistirá en…

Interpretacion y analisis conceptual del dataset.

Métodos básicos de codificación de relaciones espaciales

Métodos de selección de variables univariados, multivariados e intrínsecos a un modelo.

Partición de datos para Training, Test y Validation. Cross Validation.

Evaluación de modelos: Baselines, tipos de error.

Consolidación de un dataset consumible para los modelos.

13/9 práctico de aprendizaje supervisado, que consistirá en…

Aplicación de diversas técnicas de ML sobre el dataset generado.

Métodos de selección de variables y reducción de dimensionalidad.

Definicion, interpretación y ajuste de hiperparametros.

Metodos de ajuste de hyperparameters GridSearch, Random, Bayesiana

Interpretabilidad de los modelos.

27/9 práctico de aprendizaje no supervisado, que consistirá en…

Métodos de clusterización de datos para reducción de variables.

Implementación de regresión basado en KNN

Codificación de variable de salida en categorías.

6/11/2020 – 7/11/2020 presentación de mentorías