API de análisis de sentimiento con foco en preparación y calidad de datos para modelos de Machine Learning.
Proyecto desarrollado en hackatón, orientado a transformar texto crudo en datasets confiables y listos para entrenamiento.
Este pipeline corresponde a la etapa previa al entrenamiento de modelos de Machine Learning.
Proyecto desarrollado en hackathon, orientado al análisis de sentimiento en texto libre.
Mi foco estuvo en la calidad del dato, la normalización lingüística y la preparación del input para Machine Learning.
Responsable de preprocesamiento y baseline semántico
Limpieza y normalización de texto.
Corrección idiomática manual asistida (Excel).
Unificación de idioma para reducir ruido semántico.
Construcción de un baseline de sentimiento interpretable.
Preparación del dataset final para entrenamiento de modelos ML.
Conciencia de arquitectura: separación entre entorno de desarrollo y producción.
Los datos originales presentaban:
Ruido lingüístico
Mezcla de idiomas
Inconsistencias semánticas
Esto afectaba directamente la calidad del entrenamiento del modelo.
Solución: priorizar calidad del dato antes del ML, asegurando coherencia y estabilidad en el pipeline.
Python
Pandas
Regex / procesamiento de texto
Excel (corrección idiomática asistida)
Google Colab (entorno de desarrollo)
FastAPI (contexto del sistema)
💡 Nota: En producción, los datos se cargarían desde S3 / API / Base de datos, evitando dependencias locales.
Dataset limpio y consistente
Reducción de ruido para el entrenamiento
Base sólida para aplicar modelos de Machine Learning
Mejor interpretabilidad de resultados