José Luis Gómez
Información Académica:
Soy Ingeniero Informático e ingeniero Industrial por la Universidad de Pontificia de Salamanca, PDD por IESE, como vosotros he realizado estos mismos estudios de Inteligencia de Negocio en pero en una de sus primeras ediciones (a principios de milenio), además en los últimos años me he especializado en la Ciencia de Datos, realizando varios masters y proyectos interesantes combinando la analítica avanzada con Data Warehousing y cuadros de mando (lo Nuevo junto con lo Tradicional).
Por otro lado, poseo certificaciones en ITIL, Oracle y MicroStrategy.
En la Docencia, llevo ligado a la UOC y este Máster desde 2009, en distintas posiciones, actualmente compaginando tutoría con algo docencia
Información Profesional:
Mi carrera profesional ha estado ligada a la dirección de IT, BI y CRM.
Actualmente soy el CDO de Altadis, dirigiendo inteligencia y Analítica de negocio junto con CRM.
En etapas anteriores he sido Jefe de proyecto/Consultor en MicroStrategy, uno de los lideres mundiales en SW de BI, así como director de BI y TI.
Contacto: jgomezgar@uoc.edu
https://www.linkedin.com/in/joseluisgbusinessintelligence/
Restricciones
No hay restricciones.
Líneas
LINEA 1: Ciencia de Datos
LINEA 2: Inteligencia Empresarial
INTRODUCCION
En la cadena de valor de la comercialización de productos, que va desde que se fabrica el producto hasta que llega al consumidor final, participan varios actores. Pero los datos mas interesantes para todos ellos son las ventas producidas a consumidor final. Ya que permiten conocer la aceptación y demanda real de un producto, limpio de promociones o acuerdos comerciales entre otros eslabones de esa cadena.
Por tanto, es en el Retail (término que se emplea para nombrar a la venta minorista o la comercialización de productos al por menor) donde se generan los datos de mas valor para Fabricantes, Distribuidores y Mayoristas, ya que permiten conocer en detalle a sus consumidores, personalizando la oferta para cubrir mejor su demanda.
OBJETIVOS
El objetivo principal es monitorizar, analizar y predecir el comportamiento de pedidos, ventas y roturas de stock, de los distintos productos y establecimientos.
CONJUNTOS DE DATOS PROPORCIONADOS
Entregas/Reposición de Mercancía (Pedidos):
Frecuencia de entrega de mercancía es irregular, aunque la media se acerca a los 10 días entre entregas.
El fichero se recibe diariamente, con las entregas del día anterior.
Solo se sirven entregas en días laborables.
Posibilidad de entrega tanto por ruta como directamente en almacén central Local.
Campos: Fecha, Código Postal (CP), tienda, producto, volumen entregado, Valor de la entrega.
Presencia de Outliers. Entregas erróneas se corrigen mediante Entregas negativas.
No se cuenta con un stock inicial.
Ventas:
Frecuencia de Venta irregular, aunque la media de venta es diaria, existe mucha dispersión a nivel tienda-producto.
El fichero se recibe semanalmente. Con información diaria de la semana anterior.
Libertad de apertura de tiendas, la mayoría abre 6 días a la semana, pero se desconoce los días de apertura, que pueden llegar a variar de una semana a otra, aunque no es habitual.
Campos: Fecha, tienda, producto, volumen Vendido.
Descuadres (Calidad de Datos), debido a hurtos, deterioros, muestras, mala gestión,…. En muchas ocasiones las ventas no alcanzan el volumen Enviado.
Roturas de Stock (Out of Stock [OoS]):
Frecuencia de rotura irregular.
El fichero se recibe semanalmente. Con información diaria de la semana anterior.
Libertad de apertura de tiendas, la mayoría abre 6 días a la semana, pero se desconoce los días de apertura.
Campos: Fecha, tienda, producto.
Al ser un dato declarativo, la calidad de datos varia.
Calendarios de Entrega/reparto:
Anualmente se fija un calendario de ruta de entrega de pedidos, definiendo una media de 3 días al mes (cada 10 días) en los que se suministrará la mercancía.
La tienda es libre de acudir al almacén central a reponer producto fuera de fechas de reparto.
Campos: Fecha, Tienda
Fuentes externas (no serán suministradas):
Calendarios de Festivos (España): Se ha observado que los festivos pueden condicionar las ventas.
Provincias, municipios. A través del Código postal se puede enriquecer la muestra.
Seleccionadas por el Alumno.
ARQUITECTURA/SW
Aunque es posible instalar todo el SW necesario en una misma maquina (PC, Laptop, ...), la opción mejor valorada es hacer uso de las licencias/créditos de aprendizaje que ofrecen los distintos proveedores como (ver links):
La elección del SW/servicio/herramientas a utilizar es libre, aunque no se facilitaran licencias , mas allá de las facilitadas en las asignaturas cursadas o que gestione el alumno, mediante licenciamiento Open Source, estudiante, pruebas,….
LINEA 1: Ciencia de Datos
Proyecto donde se resuelve un problema de negocio usando mediante machine learning - incluyendo las etapas de feature engineering, model selection, evaluation, interpretability y fairness.
Sobre el conjunto de datos dado, es posible aplicar varios enfoques, predecir el siguiente OoS (los OoS de la siguiente semana y su magnitud), predecir el número y volumen de pedidos del próximo mes, predecir las ventas siguiente periodo, …
El proceso incluirá fases de preparación de datos, se deberán Cargar, limpiar, homogenizar, normalizar, transformar y procesar los datos, antes de aplicar cualquier algoritmo.
Propuesta de métodos:
Comparar al menos dos métodos. El alumno es libre de proponer métodos adicionales:
Media de Venta VS Media de Entregas: método que no utiliza algoritmos predictivos, simplemente la comparativa de evoluciones medias. Puede ser necesario distribuir la entrega entre los días comprendidos hasta la siguiente entrega, para poder comparar con la venta.
Clasificación: Implica la creación de múltiples variables que ayuden al algoritmos a establecer un patrón de comportamiento, como media, moda, repetición de compra, festivos, valor unitario, zona geográfica,….
Regresión: Implica la creación de variables y Varios enfoques, predecir el siguiente OoS, predecir el siguiente pedido, predecir la venta siguiente, combinación de ambas,….
Series temporales: Varios enfoques, predecir el siguiente OoS, predecir el siguiente pedido, predecir la venta siguiente, combinación de ambas,….
Métodos propuestos por el alumno.
Se valorará:
Metodología CRISP-DM
Creación de una Base de Datos, DWH, para las estructuras de datos.
Creación de Tablas Intermedias / Vistas / Queries que combinen las tablas, y realicen los cálculos necesarios para obtener las variables que necesiten los distintos algoritmos.
Combinación de varios Algoritmos como método de resolución.
Utilización de fuentes externas que enriquezcan los resultados.
Justificación de la elección de algoritmo y de resultados finales.
Incluir fuente/s de Datos abierta/publica.
Propuesta de Tareas:
HW del servidor, puede ser tu equipo local o un servidor de empresa,..... Recomiendo utilizar una licencia de estudiante de AWS/AZURE/GOOGLE para trabajar en la nube.
Transformaciones Adicionales: Para conformar los datos en un formato optimo para la Ciencia de Datos habrá que realizar múltiples transformaciones, para estas es posible utilizar tanto el SW de ETL, SQL o las herramientas de Datascience. Las transformaciones adicionales mínimas que se van a necesitar:
Outliers: descartar los outliers puede hacer que se reduzca demasiado la muestra, siempre que sea posible es mejor arreglarlo, aunque se asuma cierta imprecisión.
Full Outer join: Los datos para el procesamiento estadístico, deben incluir toda la información disponible, incluida la no información, por ejemplo, el fichero de roturas solo contempla las roturas, pero el algoritmo va a necesitar que también se le indique cuando no ha existido rotura.
Disponibilidad del Dato: dado que cada fichero se recibe en un momento determinado, es muy importante que los datos que alimenten el algoritmo sean consecuentes con su disponibilidad.
Pivot Data: Los algoritmos suelen procesar mejor los datos en columnas (vs filas), y a menos que trabajemos con series temporales, el histórico debe ir reflejado en columnas.
Feature engineering: cociente, variación, media, desviación, mediana, moda, cuartil, discretización, normalización…. Son transformaciones de la información que permiten ser mejor aprendidas por el algoritmo que los datos en bruto.
Clustering y dimensiones derivadas de las dimensiones existentes, que enriquecen, agrupan y resumen las características de las dimensiones Afiliados, Productos y/o Tiempo.
Data Science- Los SWs recomendados son Python y/o R, pero no esta restringido a ninguno, pudiéndose utilizar cualquier otro, como SQL server, SPSS, weka,…. Un aspecto importante, que seguramente evolucione a lo largo del TFM, es desde donde será utilizado este SW; equipo local, la nube, en el mismo que la BBDD,.....Otros aspectos importantes de esta tarea:
Es fundamental una buena exploración (análisis exploratorio) de las variables para entender los datos.
Algoritmos: Pedidos menos Ventas, Series temporales, regresión lineal, Clustering, arboles, redes neuronales,....... Cada cual tiene sus ventajas e inconvenientes. En este punto es necesario testar al menos 2 algoritmos, recomendado 3, el primero debe ser lo mas simple posible, y así definir la BaseLine. Una vez seleccionado el algoritmo con mejores resultados, comienza la fase de parametrización y ajuste fino de variables, incluso la utilización del mismo tipo de algoritmo, pero de librerías avanzadas.
Industrialización : aunque opcional, cargar en una BBDD (DWH), el proceso de predicción, tanto los valores de la predicción como la calidad de esta, idealmente en un proceso "automatizado".
Visualización, mediante dashboards, tanto para los resultados como para la calidad de la información. Es necesaria unas visualizaciones que ayude a mostrar y presentar los resultados. Respecto el SW, empezando por las opciones de visualización del software utilizado (pe Python, R) a SW de visualización como pentaho, Qlik, MicroStrategy, PowerBI, Tableau,…
LINEA 2: Inteligencia Empresarial
Proyecto donde se diseña e implementa un sistema de inteligencia de negocio, incluyendo procesos de integración de datos, data warehousing y explotación de datos correspondientes
Sobre el conjunto de datos dado, el Trabajo Final de Máster propuesto se basa en el diseño y desarrollo de un entorno completo de Business Intelligence, cubriendo desde la Arquitectura como la Extracción, Transformación y Carga periódica desde distintas fuentes de datos, pasando configuración de los servicios y servidores, hasta la consulta y Visualización.
ETL Se valorará:
Incluir fuente/s de Datos abierta/publica.
Creación de una Base de Datos, DWH, para las estructuras de datos.
Creación de Tablas Intermedias / Vistas / Queries que combinen las tablas, y realicen los cálculos necesarios.
Modelo copo de nieve, por lo que será necesario un modelo con varias ramificaciones, niveles de dimensión, clasificaciones, características, o segmentaciones. Permitiendo agregar por cada una de ellas.
Reporting/Dashboarding Se valorará:
Grado de Autoservicio por parte del usuario final, el sistema debe permitir consultas específicas de datos.
Conexión de varias FACTs
Interactividad de reports/dashbords creados.
Drill Down de la información, como pasar de un dato resumido a su detalle.
Presentación de la fijación, descripción y contexto de los KPIs elegidos.
Propuesta de Tareas:
Infraestructura: Servidor SQL
Recomendado usar BBDD, como Postgre o SQL Server, por x ejemplo.
HW del servidor, puede ser tu equipo local o un servidor de empresa,..... Recomiendo utilizar una licencia de estudiante de AWS/AZURE/GOOGLE para trabajar en la nube.
ETL - SW a utilizar. Las ETLs planteadas no son complejas, por lo que, para las cargas directas de los ficheros, es posible utilizar el Import/export de SQL server y salvarlo como DTX (fichero ETL SSIS), otro SW recomendado es spoon. El alumno es libre de utilizar el SW a su elección, recomendado aquellos que ya conoce.
Transformaciones Adicionales: Para conformar los datos en un formato optimo para la Ciencia de Datos habrá que realizar múltiples transformaciones, para estas es posible utilizar tanto el SW de ETL, SQL o las herramientas de Datascience. Las transformaciones adicionales mínimas que se van a necesitar:
Outliers: descartar los outliers puede hacer que se reduzca demasiado la muestra, siempre que sea posible es mejor arreglarlo, aunque se asuma cierta imprecisión.
Full Outer join: Los datos para el procesamiento estadístico, deben incluir toda la información disponible, incluida la no información, por ejemplo, el fichero de roturas solo contempla las roturas, pero el algoritmo va a necesitar que también se le indique cuando no ha existido rotura.
Disponibilidad del Dato: dado que cada fichero se recibe en un momento determinado, es muy importante que los datos que alimenten el algoritmo sean consecuentes con su disponibilidad.
Pivot Data: Los algoritmos suelen procesar mejor los datos en columnas (vs filas), y a menos que trabajemos con series temporales, el histórico debe ir reflejado en columnas.
Feature engineering: cociente, variación, media, desviación, mediana, moda, cuartil, discretización, normalización…. Son transformaciones de la información que permiten ser mejor aprendidas por el algoritmo que los datos en bruto.
Clustering y dimensiones derivadas de las dimensiones existentes, que enriquecen, agrupan y resumen las características de las dimensiones Afiliados, Productos y/o Tiempo.
Visualización, el objetivo de las visualizaciones es que ayude a mostrar y presentar los aspectos interesantes del negocio. Respecto el SW, pentaho, Qlik, MicroStrategy, PowerBI, Tableau,… son buenas opciones, Es posible usar licencia de estudiante o de test, en caso de expirar, es posible volver a registrarse. Como en otros apartados, donde va a ser instalado también es importante.
Otras consideraciones