Ciencia de Datos aplicada en la distribución de Energía Eléctrica

Martín Hunziker

Descripción:

Se provee de un dataset que contiene la base de datos geográfica del año 2017, 2018 y 2019 de la empresa ENF (Energisa Nueva Friburgo).

El dataset contiene datos geográficos de los consumidores y de todos los activos de la distribuidora. El objetivo de este proyecto es que el estudiante a lo largo de las materias de la diplomatura identifique y aplique diferentes técnicas de análisis/procesamiento de los datos que generen información relevantes para la toma de decisiones.


Este tema es interesante porque…

Trabajaremos con un dataset con informaciones reales en uno de los mayores desafíos de la distribución de energía eléctrica: identificar los impulsores de la Calidad de Servicio (cantidad y la duración de las interrupciones) que permitan la toma de decisiones eficientes sobre los costos operativos e inversiones.

Trataremos de responder algunas de las siguientes preguntas:

¿De qué depende da la cantidad y la duración de las interrupciones? ¿Cuál es la influencia de la topología de la red, el consumo de los usuarios y de los equipos de protección? ¿Cuál es el impacto de las variables ambientales?

Los datos

Los datos estan el el repo: https://github.com/mahunz/Diplodatos2020. Las informaciones están en formato gdb. Para poder visualizarlas se puede utilizar el software qgis https://qgis.org/en/site/ y la librería geopandas en Jupyter.

Hitos de la mentoría

22/6 práctico de análisis y visualización, que consistirá en una conocer la estructura de las informaciones disponibles, analizar las diferentes tablas y familiarizarse con los datos georeferenciados. Especificamente realizaremos:

  • Correlación entre variables/análisis de independencia. A través de este análisis se debe identificar el impacto de cada variable sobre la calidad de servicio.

  • Análisis de outliers.

  • Visualización de la calidad de servicio y el consumo de energía anual por grupo tarifario, circuito y por conjunto eléctrico

19/7 práctico de análisis y curación, que consistirá en la curación de los datos. Las actividades a realizar son:

  • Importación de datos.

  • Chequeo de claves únicas por sample/eliminar duplicados.

  • Despersonalización de datos.

  • Normalización de los nombres de las columnas en los dataframes.

  • Tratamiento de valores faltantes.

  • Codificación de variables categóricas.

  • Análisis de valores atípicos.

  • Persistencia de los resultados.

  • Ordenamiento de las columnas.

  • Vinculación de la tablas a través de las llaves de las tablas

  • Eliminar columnas que no aporten información.

  • Crear un dataset único a partir de las tablas provistas incluyendo toda la información útil en una misma tabla.

16/8 práctico de introducción al aprendizaje automático. El dataset está compuesto por muchas tablas con información geográfica y variables sobre las cuales se puede aplicar análisis y procesamiento. El objetivo en este punto es que los estudiantes aprendan a dividir el dataset, a seleccionar el modelo y evaluar las métricas. Se propone trabajar con tres variables simples de analizar, el consumo anual, el tipo de zona geográfica (urbana o rural) y la cantidad de interrupciones (FIC), y con esto hacer un sistema predictivo en donde se introduce un consumo anual, la zona geográfica y el modelo predice la cantidad de interrupciones. Con esto podrá aplicarse:

  • Carga de datos.

  • Una pequeña reestructuración de las columnas optimizandolo para el análisis que se desea hacer (por ejemplo considerar el análisis por consumidor o agrupado por categoría tarifaria, o el circuito provista por el dataset).

  • División en conjuntos de entrenamiento y evaluación.

  • Elección de un modelo.

  • Selección de hyperparámetros.

  • Métricas sobre el conjunto de evaluación.

13/9 práctico de aprendizaje supervisado. Definir un modelo simple para utilizarlo de baseline e ir complejizando el modelo con la adición de diferentes variables. Se propondrá la utilización de los algoritmos de red para desarrollar features de interés a partir de las informaciones geográficas. El objetivo es implementar en este caso un sistema predictivo de calidad de servicio (FEC) en base a la información geográfica. Se cuenta con features como el consumo, los equipos por circuito, la geografía de los features, las cuales se pueden utilizar como entrada de un modelo que prediga el FEC.

27/9 práctico de aprendizaje no supervisado,para la aplicación de aprendizaje no supervisado sería interesante realizar una Segmentación de la calidad de servicio mediante técnicas de clusterización con las diferentes variables disponibles. Hacer un análisis de los grupos obtenidos que nos permita evaluar cuales son las variables que mejor explican la calidad de servicio. Estas variables podemos utilizarlas en los algoritmos de aprendizaje supervisado para mejorar su calidad de predicción. Podría utilizarse un algoritmo como K Means con algún método de optimización de número de clusters como elbow method.


6/11/2020 – 7/11/2020 presentación de mentorías