Proyectos
Este proyecto aborda la detección de fraude con tarjetas de crédito, un problema de clasificación binaria con desbalance extremo. A partir del dataset público (cargado con kagglehub), se realiza una exploración inicial enfocada en sesgos de distribución y separabilidad por clase: transformación logarítmica del monto (AmountLog) para estabilizar colas, KDE por clase y gráficos hexbin para evitar sobrecarga visual, además de una revisión de los componentes principales V1–V28 (PCA). Con base en esa EDA, se derivan características: transformaciones del monto (log/sqrt/zscore), selección de V’s con mayor diferencia entre clases y agregados (sum/mean/std/skew), más funciones no lineales (abs, cuadrado, log_abs). Se elimina ruido con una limpieza de outliers por clase mediante IQR, y se establece una partición estratificada train/test para preservar prevalencias.
El modelado se articula en Pipelines con un ColumnTransformer que escala solo variables no-PCA (RobustScaler), y tres estrategias comparadas con validación cruzada estratificada: base, sobremuestreo y submuestreo. El clasificador es XGBoost, sintonizado con RandomizedSearchCV optimizando Average Precision (AUPRC), métrica idónea en escenarios desbalanceados. Tras elegir el mejor pipeline por AUPRC, se reentrena y evalúa en test reportando ROC-AUC, AUPRC, F1, balanced accuracy y matriz de confusión; se extrae importancia de variables para diagnóstico. Finalmente, se define un umbral operativo sobre las probabilidades (partiendo de 0.05 hasta 0.95) y se realiza un análisis económico coste‑beneficio (fraudes evitados, fraudes perdidos, costo de investigación y falsas alarmas) barriendo thresholds para maximizar ahorro neto/ROI, alineando la decisión del modelo con el impacto de negocio.
Notebook y diapositiva ejecutiva disponibles: https://github.com/XxHurtadoxX/Credit-Card-Fraud-Detection
Este proyecto tiene por objeto, determinar los factores educativos más importantes para el desarrollo económico, se relacionan variables de resultado educativo como puntajes ICFES y una variable que describe la formación de capital humano ponderada por el nivel educativo alcanzado, entre otras variables como acceso a internet e índice de gini. Se toma la variable PIB per cápita, la muestra es departamental.
Este proyecto tiene como finalidad ser una pequeña guía introductoria al Web Scraping, extrayendo tablas de datos de páginas web, en este caso Wikipedia, así como también utilizando una API para unir el Código ISO 3166 al Dataframe principal y asi anexar a cada pais su imagen.
Este es un breve ejemplo de cómo podemos recopilar datos de varios archivos y unirlos para hacer un análisis, en este caso, descargamos datos de investing.com, concretamente del precio del dólar en cada algunos países de Latinoamérica, en el, transformamos los datos para observar la evolución de estos en lo que va corrido 2024 respecto a su valor en el primero del año, este tipo de análisis es fundamental en la medida que nos revela la fortaleza de una moneda respecto a otra, en este caso las monedas latinas respecto al dólar americano.
No es de extrañarse que Argentina (Peso / Dólar Blue) sea la divisa más volátil.
Este proyecto tiene por objeto, determinar los factores educativos más importantes para el desarrollo económico, se relacionan variables de resultado educativo como puntajes ICFES y una variable que describe la formación de capital humano ponderada por el nivel educativo alcanzado, entre otras variables como acceso a internet e índice de gini. Se toma la variable PIB per cápita, la muestra es departamental.
El proyecto consiste en el desarrollo e implementación de un sistema de gestión de empleados. El sistema permite administrar eficientemente la información de los empleados, sus áreas de trabajo, detalles de contacto y funciones laborales.
Continuando con la serie de los mapas, este proyecto explica como crear multiples mapas Interactivo en Rstudio con la librería Shiny y Leaflet, donde se puede visualizar cada municipio de colombia con lujo de detalles gracias a la capacidad del zoom y al mismo tiempo poder identificar su nombre. En esta serie se visualizaron múltiples variables, como la población, el valor agregado, la desnutrición y la criminalidad, así mismo, se podrá desglosar estos datos para los tipos de municipios según su población.
Este breve proyecto explica como realizar un mapa Interactivo en Python con la librería Plotly, donde se puede visualizar cada municipio de colombia con lujo de detalles gracias a la capacidad del zoom y al mismo tiempo poder identificar su nombre, código divipola y población proyectada para 2024.
Este proyecto utiliza python de la mano de Pandas y Seaborn principalmente para explorar variables relevantes en el estudio del desempleo en los jóvenes para la encuesta más recientemente publicada por el DANE en el GEIH - 2023, es decir, el mes de octubre.
Se utilizan datos de solo de las características personales y de la fuerza laboral.
Fuente: https://microdatos.dane.gov.co/index.php/catalog/782/get-microdata
Este proyecto presenta la situación socioeconómica actual de Colombia y su evolución de 2021 a 2022, en él se observa como la periferia a excepción de nariño está empeorando su situación, mientras que el centro está mejorando significativamente.
Los datos son proporcionados por el DANE, en estadísticas de pobreza y desigualdad para el 2021.
Este proyecto fue diseñado inicialmente por Lukasz Pawlowski del equipo de Power BI para datos de Estados Unidos de 1948-2016, sin embargo, acá se replicó para Colombia, con datos mensuales desde enero del 2000 hasta septiembre de 2023.
El proyecto se centra en la exploración detallada y el análisis estadístico de datos financieros de diversas acciones de empresas Colombianas en el mercado de valores. Este estudio abarca una amplia gama de actividades, desde la recopilación y limpieza de datos hasta la implementación de modelos predictivos de machine learning. El objetivo principal es proporcionar una visión integral y perspicaz de cómo se comportan las acciones a lo largo del tiempo y, lo que es más importante, predecir su rendimiento futuro.
En mi paso por el Departamento Nacional de Planeación, preste apoyo en análisis de datos en la subdirección de salud pública para la estimación de métricas que permitan diagnosticar la situación de inseguridad alimentaria de los diferentes municipios del país, este proyecto tuvo como resultado una serie de mapas que describen esta situación y finalmente un indicador latente de inseguridad alimentaria creado mediante un modelo MIMIC.