Científico de datos: ¿Qué área de especialización tomar?
EL campo de aplicación de la Ciencia de Datos, se traduce en un incremento de las áreas de especialización de un Científico de Datos (Data Scientist), con perfiles técnicos cada vez más demandados.
A continuación, realizo una breve descripción de las distintas áreas en las cuales un científico de datos se puede especializar, la cual nos permitirá delimitar tanto el perfil asociado a cada área como el rol que juega cada una en el desarrollo de un proyecto de ciencias de datos, esto con el objeto de definir el área que mejor se adapte a nuestras necesidades e intereses de crecimiento profesional:
Data Engineering: Este área se encarga del diseño y construcción de los repositorios donde se almacenan los datos en bruto. También, se encarga de definir el proceso de recolección y transformación de los datos para poder analizarlos o pasarlos al data scientist, para que pueda poner sus modelos en producción; este proceso se denomina ETL (Extract, Transform y Load). Las tareas de un especialista en este área, denominado Data Engineer (Ingeniero de Datos), están relacionadas principalmente con la informática; por lo cual, este debe estar en la capacidad, en primer lugar, de comprender los algoritmos y las estructuras de datos eficientes y, en segundo lugar, de comprender el funcionamiento de bases de datos y sus estructuras subyacentes.
Machine Learning/Deep Learning Scientist: Estos científicos trabajan en la investigación, desarrollo y mejora de sistemas analíticos que aprenden automáticamente, es decir, algoritmos que permitan encontrar patrones repetitivos, tendencias ó reglas que expliquen el comportamiento de grandes conjuntos de datos en un determinado contexto y que pueden utilizarse para predecir el comportamiento futuro de los mismos. El término automático se refiere a la capacidad de los sistemas de mejorar de forma autónoma con el tiempo y la experiencia, con la mínima intervención humana. Estos científicos llevan a cabo estas tareas mediante la aplicación de nociones matemáticas y estadísticas.
Machine Learning/Deep Learning Engineering: Este tipo de ingenieros se encargan de aplicar principios de ingeniería de software y conocimientos analíticos y de ciencia de datos, y combinar ambos para el desarrollo e implementación de sistemas analíticos que aprenden automáticamente, es decir, buscan la implementación de algoritmos que mediante la revisión de datos e identificación de patrones, puedan predecir comportamientos futuros, relaciones y/ó generalizar acciones con la mínima intervención humana.
Business Intelligence: Es el área encargada de recopilar, depurar y transformar datos de la empresa, almacenados en distintas fuentes y de distinto tipo, para su posterior carga en un almacén de datos y explotación directa. Esto último con el objeto de convertir estos datos en conocimiento, ya sea mediante reportes, dashboard, KPI’s, alertas, etc, que permita analizar y comprender como está funcionando la empresa y optimizar dicho funcionamiento mediante la toma de decisiones pertinentes.
MLOps: Es una práctica reciente de colaboración y comunicación entre científicos de datos y profesionales de operaciones para la gestión del ciclo de vida de modelos de Machine Learning (ML). MLOps tiene como objetivo agregar disciplina al desarrollo y despliegue de estos modelos, para su posterior propagación en productos y servicios de software. MLOps busca alcanzar este objetivo mediante la definición de procesos de desarrollo para ML, aumento de la automatización, estableciendo las mejores prácticas y herramientas para probar, implementar, administrar y monitorear estos modelos, mientras se mantiene el enfoque de los requisitos comerciales y regulatorios.
Data Analyst: Este área abarca el proceso de recopilación, procesamiento y gestión de datos relevantes en la empresa, para su posterior análisis estadístico, con el objeto de identificar tendencias, correlaciones y patrones. Un analista de datos esta en capacidad de interpretar y proveer informes y visualizaciones de los resultados de este análisis, con el fin de establecer estrategias dentro de la empresa, ya sea impulsando una innovación, respaldar el desarrollo de un producto, identificando áreas de mejoras, etc.
Para resumir, ya sea que te decidas por áreas más técnicas, como Data Engineering, Machine Learning/Deep Learning Engineering o MLOps, o áreas más analíticas y de investigación, como Data Analyst, Business intelligence o Machine Learning/Deep Learning Scientist, la siguiente imagen te permitirá visualizar la interacción y aporte de estas diferentes áreas en el desarrollo de un proyecto de Ciencia de Datos.