Proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD)
El proceso de descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databades o KDD) tiene como objetivo la extracción automatizada de conocimiento de forma no trivial, mediante la identificación de patrones válidos, novedosos y potencialmente útiles entendibles para el usuario, a partir de grandes volúmenes de datos (Fayyad, et al.,1996), mediante algoritmos eficientes.
El campo del Descubrimiento de Conocimiento en Bases de Datos, denominado Knowledge Discovery in Data Bases en inglés y usualmente abreviado KDD, es la convergencia del Aprendizaje Automático, la Estadística, el Reconocimiento de Patrones, la Inteligencia Artificial, las Bases de Datos, la Visualización de Datos, los Sistemas para el Apoyo a la Toma de Decisiones, la Recuperación de Información, y otros muchos campos.
Figura 1 – Etapas del proceso KDD adaptado de (Fayyad et al., 1996).
Varios autores manejan distintos números de etapas en el proceso KDD, pero en esencia consiste en las siguientes actividades:
1. Selección del conjunto de datos.
En esta primera etapa se crea el conjunto de datos objetivo, seleccionando el subconjunto de variables o ejemplos sobre los que se realizará el descubrimiento. Esto implica consideraciones sobre la homogeneidad de los datos, su variación a lo largo del tiempo, estrategia de muestreo, grados de libertad, etc.
2. Procesamiento de los datos.
El objetivo de esta etapa es asegurar la calidad de los datos a analizar ya que de ello depende, en gran medida, la calidad del conocimiento descubierto. En esta fase se incluyen tareas como filtrado de individuos atípicos, eliminación de ruido, estrategias para manejar valores ausentes, normalización de los datos, etc.
3. Transformación y reducción de los datos.
Incluye la búsqueda de características útiles de los datos según sea el objetivo final, la reducción del número de variables y la proyección de los datos sobre espacios de búsqueda en los que sea más fácil encontrar una solución. Este es un paso crítico dentro del proceso global, que requiere un buen conocimiento del problema y una buena intuición, y que, con frecuencia, marca la diferencia entre el éxito o fracaso de la minería de datos.
4. Selección y aplicación de la técnica de minería de datos.
En esta etapa se analizan los datos mediante un conjunto de técnicas y herramientas para extraer la información oculta en ellos. Esta etapa se puede subdividir en tres pasos:
Elección del tipo de sistema para minería de datos.
Se refiere a la determinación el problema que se necesita resolver, depende de sí el objetivo del proceso de KDD es la clasificación, regresión, agrupamiento de conceptos (clustering), detección de desviaciones, etc.
Elección del algoritmo de minería de datos.
Se elige el algoritmo más adecuado para el problema en cuestión.
Minería de datos.
En este paso se realiza la búsqueda de conocimiento con una determinada representación del mismo. El éxito de la minería de datos depende en gran parte de la correcta realización de los pasos previos: por parte del usuario. En esta etapa se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.
5. Interpretación y evaluación del conocimiento descubierto.
Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. La obtención de resultados aceptables dependerá de factores como: definición de medidas del interés del conocimiento (de tipo estadístico, en función de su sencillez, etc.) que permitan filtrarlo de forma automática, existencia de técnicas de visualización para facilitar la valoración de los resultados o búsqueda manual de conocimiento útil entre los resultados obtenidos.
(Beltrán, 2014)
Protocolo de un proyecto de minería de datos
El modelo de proceso actual para la minería de datos proporciona una visión general del ciclo de vida de un proyecto de minería de datos. Contiene las fases de un proyecto, sus respectivas tareas y las relaciones entre estas tareas. En este nivel de descripción, no es posible identificar todas las relaciones. Esencialmente, podrían existir relaciones entre cualquier tarea de minería de datos dependiendo de los objetivos, los antecedentes y el interés del usuario y, lo que es más importante, de los datos.
El ciclo de vida de un proyecto de minería de datos consta de seis fases. La figura 2 muestra las fases de un proceso de minería de datos. La secuencia de las fases no es rígida. Siempre se requiere moverse hacia adelante y hacia atrás entre diferentes fases. Depende del resultado de cada paso qué fase o qué tarea particular de una fase, tiene que ser realizada a continuación. Las flechas indican las dependencias más importantes y frecuentes entre fases.
Cada una de las etapas se describe a continuación de manera breve:
1. Comprensión o conocimiento del negocio.
Esta fase inicial se centra en comprender los objetivos y requisitos del proyecto desde una perspectiva de negocio, convirtiendo este conocimiento en una definición del problema de minería de datos y un plan preliminar diseñado para lograr los objetivos.
2. Comprensión de los datos.
La fase de comprensión de los datos comienza con una recopilación inicial de datos y continúa con actividades para familiarizarse con los datos, identificar problemas de calidad de los datos, descubrir los primeros conocimientos sobre los datos o detectar subconjuntos interesantes para formar hipótesis para información oculta.
3. Preparación de los datos.
La fase de preparación de datos cubre todas las actividades para construir el conjunto de datos final (datos que se introducirán en la(s) herramienta(s) de modelado) a partir de los datos sin procesar iniciales. Es probable que las tareas de preparación de datos se realicen varias veces y no en el orden prescrito. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y limpieza de datos para herramientas de modelado.
4. Modelamiento.
En esta fase, se seleccionan y aplican varias técnicas de modelado y sus parámetros se calibran a valores óptimos. Normalmente, existen varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requisitos específicos sobre la forma de los datos. Por lo tanto, a menudo es necesario volver a la fase de preparación de datos.
5. Evaluación.
En esta etapa del proyecto, ha creado un modelo (o modelos) que parece tener alta calidad desde una perspectiva de análisis de datos. Antes de proceder a la implementación final del modelo, es importante evaluar más a fondo el modelo y revisar los pasos ejecutados para construir el modelo para asegurarse de que logra correctamente los objetivos comerciales. Un objetivo clave es determinar si hay algún problema comercial importante que no se haya considerado lo suficiente. Al final de esta fase, se debe llegar a una decisión sobre el uso de los resultados de la minería de datos.
6. Despliegue o implementación.
La creación del modelo generalmente no es el final del proyecto. Incluso si el propósito del modelo es aumentar el conocimiento de los datos, el conocimiento adquirido deberá organizarse y presentarse de manera que el cliente pueda usarlo. A menudo implica aplicar modelos "en vivo" dentro de los procesos de toma de decisiones de una organización, por ejemplo, en la personalización en tiempo real de páginas web o la puntuación repetida de bases de datos de marketing. Sin embargo, dependiendo de los requisitos, la fase de implementación puede ser tan simple como generar un informe o tan compleja como implementar un proceso de minería de datos repetible en toda la empresa. En muchos casos, es el cliente, no el analista de datos, quien lleva a cabo los pasos de implementación. Sin embargo, incluso si el analista no llevará a cabo el esfuerzo de implementación, es importante que el cliente comprenda por adelantado qué acciones deben llevarse a cabo para hacer uso real de los modelos creados.
(Chapman, et. al, 2000)
Figura 2: Fases del modelo de referencia CRISP-DM (Chapman, et. al, 2000).
Minería de Datos
La minería de datos es la etapa de análisis del KDD, es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.
Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.
El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.
En el uso de la palabra, el término clave es el descubrimiento, comúnmente se define como "la detección de algo nuevo".
La tarea de minería de datos real es el análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos.
La Minería de Datos descubre relaciones, tendencias, desviaciones, comportamientos atípicos, patrones y trayectorias ocultas, con el propósito de soportar los procesos de toma de decisiones con mayor conocimiento. La Minería de Datos se puede ubicar en el nivel más alto de la evolución de los procesos tecnológicos de análisis de datos.
Algunas definiciones de Minería de Datos:
1. Conjunto de técnicas; que automatizan la detección de patrones relevantes.
2. Proceso que permite transformar información en conocimiento útil para el negocio, a través del descubrimiento y cuantificación de relaciones en una gran base de datos.
3. La técnica denominada como Minería de datos o Data Mining (DM) puede ser definida como el proceso de extracción de información y patrones de comportamiento que permanecen ocultos entre grandes cantidades de información: Es un proceso iterativo en el que a los avances que se van produciendo en cada paso se les denomina descubrimientos (KDD – Knowledge Discovery in Database)
4. El Data Mining es un proceso que, a través del. descubrimiento y cuantificación de relaciones predictivas en los datos, permite transforma la información disponible en conocimiento útil, Constituye una de las vías principales de explotación de Data Warehouse.
5. El Data Mining surgió como una integración de múltiples tecnologías tales como la estadística, el soporte a la toma de decisiones, el aprendizaje automático, la gestión y almacenamiento de bases datos y procesamiento en paralelo. Para la realización de estos procesos se aplican técnicas procedentes de muy diversas áreas, como pueden ser los algoritmos genéticos, las redes neuronales, los árboles de decisión, etc.
(Beltrán, 2014)
El proceso de minería involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo estadístico, en el sentido que se permite un cierto ruido o error dentro del modelo.
Los algoritmos de minería de datos realizan en general tareas de predicción (de datos desconocidos) y de descripción (de patrones).
En el campo del descubrimiento de patrones de datos, hay varias tareas o técnicas fundamentales que se realizan para extraer información útil de los conjuntos de datos. Estas tareas se pueden clasificar en dos categorías principales: tareas descriptivas y tareas predictivas.
Las tareas junto con las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos, un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características mientras que un modelo predictivo proporciona información sobre datos futuros.
Las tareas descriptivas son fundamentales para comprender y resumir la estructura y las características de un conjunto de datos. Estas tareas proporcionan una visión general de los datos y permiten extraer información valiosa sin necesidad de hacer predicciones o tomar decisiones específicas.
Algunas de las principales utilidades de las tareas descriptivas son las siguientes:
· Exploración de datos: Las tareas descriptivas permiten explorar los datos en busca de patrones, tendencias y relaciones. Ayudan a identificar características clave y a comprender la distribución de los datos en diferentes variables.
· Comprensión de la estructura de los datos: Al realizar tareas descriptivas, se pueden obtener estadísticas resumidas como la media, la mediana, la desviación estándar, el rango, etc. Estas medidas proporcionan información sobre la distribución y la dispersión de los datos.
· Detección de anomalías: Las tareas descriptivas también ayudan a identificar instancias o patrones inusuales o atípicos en los datos. Estas anomalías pueden ser datos erróneos, valores atípicos o casos especiales que requieren una atención adicional.
· Segmentación de datos: Mediante técnicas de segmentación, las tareas descriptivas permiten agrupar instancias de datos similares en segmentos o clusters. Esto puede ser útil para identificar grupos homogéneos dentro de los datos y entender las características distintivas de cada grupo.
· Visualización de datos: Las tareas descriptivas se complementan con técnicas de visualización de datos, que ayudan a representar gráficamente la información para una mejor comprensión. Los gráficos y las visualizaciones proporcionan una representación intuitiva de los patrones y tendencias presentes en los datos.
Entra las principales tareas descriptivas se tienen las siguientes:
Asociación
Este tipo de herramientas establece las posibles relaciones o correlaciones entre distintas acciones o sucesos aparentemente independientes, pudiendo reconocer como la ocurrencia de un suceso o acción puede inducir o generar la aparición de otros.
Normalmente este tipo de herramientas se fundamenta en técnicas estadísticas como los análisis de correlación y de variación.
Agrupamiento o clustering
Es una tarea en donde se busca identificar un conjunto de categorías o conjuntos para describir los datos. Las categorías pueden ser mutuamente exclusivas y exhaustivas, o consistir de una representación jerárquica, o permitir solapamientos. Entre los ejemplos que utilizan agrupamiento en aplicaciones de KDD, se incluyen las subpoblaciones homogéneas de consumidores en una base de datos de mercados y la identificación de subcategorías en el espectro de alguna medida. Se utilizan algoritmos de clustering.
Como resultado del tratamiento de la información, esta tarea presenta los distintos grupos detectados junto con los valores característicos de las variables. Estas tareas se basan en técnicas de carácter estadístico, de empleo de algoritmos matemáticos, de generación de reglas y de redes neuronales para el tratamiento de registros.
Reconocimiento de patrones
Estas herramientas permiten la asociación de una señalo información de entrada con aquella o aquellas con las que guarda mayor similitud y que están catalogadas en el sistema.
Estas herramientas son usadas por elementos que son tan habituales como un procesador de texto o un despertador. Los patrones pueden ser cualquier elemento de información que deseemos.
En el ámbito particular del DM estas herramientas pueden ayudamos en la identificación de problemas e incidencias y de sus posibles soluciones toda vez que dispongamos de la base de información necesaria en la cual buscar.
Estas herramientas se sustentan en las técnicas de Redes Neuronales y Algoritmos Matemáticos.
Visualización
Permite representar gráficamente la información contenida en un conjunto de datos de manera clara y comprensible. La visualización de datos descriptiva tiene como objetivo principal proporcionar una representación visual de los patrones, tendencias y relaciones presentes en los datos, lo que facilita su interpretación y comprensión.
(Joyanes, 2019)
Las tareas predictivas tienen como objetivo realizar predicciones o estimaciones futuras basadas en los patrones y estructuras descubiertos en los datos históricos. Estas tareas son fundamentales para aprovechar el conocimiento oculto en los datos y utilizarlo para tomar decisiones informadas. Algunas de las principales utilidades de las tareas predictivas son las siguientes:
· Predicción de resultados: Las tareas predictivas permiten predecir resultados o eventos futuros en función de los datos históricos. Por ejemplo, en el campo del análisis de ventas, se pueden realizar predicciones sobre las ventas futuras en función de patrones pasados y variables relevantes.
· Toma de decisiones: Las predicciones generadas a través de las tareas predictivas pueden ser utilizadas como base para tomar decisiones estratégicas o tácticas. Por ejemplo, en la planificación empresarial, las predicciones sobre la demanda futura pueden influir en la toma de decisiones sobre producción, inventario y recursos.
· Optimización de recursos: Al utilizar tareas predictivas, se pueden realizar ajustes y optimizaciones en el uso de los recursos. Por ejemplo, en la gestión de la cadena de suministro, las predicciones sobre la demanda futura pueden ayudar a planificar y asignar los recursos adecuados de manera más eficiente.
· Personalización y recomendaciones: Las tareas predictivas permiten generar recomendaciones personalizadas para los usuarios en función de sus preferencias y comportamientos pasados. Por ejemplo, en servicios de streaming, se pueden hacer recomendaciones de películas o música en función de los patrones de visualización o escucha anteriores.
· Anticipación de riesgos: Las tareas predictivas pueden ayudar a identificar y anticipar posibles riesgos o problemas en función de los patrones de datos históricos. Por ejemplo, en la detección de fraudes, las predicciones pueden ayudar a identificar transacciones sospechosas y tomar medidas preventivas.
Entra las principales tareas predictivas se tienen las siguientes:
Clasificación
La clasificación agrupa todas aquellas herramientas que permiten asignar a un elemento la pertenencia a un grupo o clase. Ello se instrumenta a través de la dependencia de la pertenencia a las clases en los valores de una serie de atributos o variables.
A través del análisis de un colectivo de elementos, o casos de los cuales conocemos la clase a la que pertenecen, se establece un mecanismo que establece la pertenencia a tales clases en función de los valores de las distintas variables y nos permite establecer el grado de discriminación o influencia de éstas.
También se utiliza para estas herramientas la denominación de Predicción o Evaluación para aquellos casos donde se aplican técnicas, normalmente numéricas, que establecen para cada elemento un valor dependiente de los valores que tengan las variables en tal elemento.
Las herramientas de Clasificación hacen uso de técnicas como algoritmos matemáticos, análisis discriminante y de variaciones, sistemas expertos y sistemas de conocimiento e inducción de reglas.
Regresión
Es una técnica utilizada en el descubrimiento de patrones de datos para predecir valores numéricos o continuos basados en variables independientes. En la regresión, se establece una relación entre una variable dependiente, también llamada variable objetivo, y una o más variables independientes, también conocidas como variables predictoras o características.
La tarea de regresión implica construir un modelo matemático o estadístico que pueda estimar o predecir el valor de la variable dependiente en función de los valores de las variables independientes.
Existen muchas aplicaciones, como, por ejemplo, predecir la cantidad de biomasa presente en un bosque dado, censado remotamente por vía microondas, estimar la probabilidad de que un paciente no muera, dados los resultados de un conjunto de pruebas de diagnósticos, predecir la demanda de un consumidor por un nuevo producto como una función del gasto publicitario.
Detección de outliers
Consiste en identificar instancias o puntos de datos que difieren significativamente del patrón general de los datos. Estos valores atípicos pueden ser datos erróneos, anomalías o casos especiales que se apartan de la distribución típica de los datos. La detección de outliers es importante porque estos valores pueden afectar negativamente los análisis posteriores y las conclusiones extraídas de los datos.
(Joyanes, 2019)
Se basan en expresar modelos y patrones mediante fórmulas algebraicas, funciones lineales, funciones no lineales, distribuciones o valores agregados estadísticos como pueden ser medias, varianzas o correlaciones. Frecuentemente, este tipo de técnicas extraen un patrón a partir de un modelo ya predeterminado el cual tiene unos parámetros que han de ser estimados en función de la información a la que se aplica.
Algunas técnicas algebraicas comunes para la modelización de datos son las siguientes:
· Regresión lineal: La regresión lineal es una técnica predictiva algebraica básica que establece una relación lineal entre una variable dependiente y una o más variables independientes. El modelo de regresión lineal utiliza una ecuación lineal para predecir los valores de la variable dependiente en función de los valores de las variables independientes.
· Regresión polinómica: La regresión polinómica es una extensión de la regresión lineal que permite modelar relaciones no lineales entre las variables. En lugar de una relación lineal, se utiliza una función polinómica para predecir los valores de la variable dependiente. Esto permite capturar relaciones más complejas entre las variables.
· Análisis de componentes principales (ACP): El ACP es una técnica utilizada para reducir la dimensionalidad de un conjunto de datos al proyectarlo en un espacio de menor dimensión. Utiliza técnicas algebraicas para calcular las componentes principales que explican la mayor parte de la variabilidad de los datos. El ACP puede ser utilizado como una técnica predictiva al predecir nuevos valores en el espacio de componentes principales.
· Análisis de discriminante lineal: El análisis de discriminante lineal (LDA) es una técnica utilizada para clasificar observaciones en diferentes grupos o categorías. Utiliza métodos algebraicos para calcular una función lineal que maximice la separación entre los grupos y minimice la variabilidad dentro de cada grupo. El LDA se puede utilizar para predecir la pertenencia de nuevas observaciones a los grupos existentes.
Análisis de regresión logística: La regresión logística es una técnica utilizada para modelar y predecir variables binarias o categóricas. Utiliza métodos algebraicos y probabilísticos para estimar la probabilidad de que una observación pertenezca a una determinada categoría. La regresión logística puede ser utilizada para realizar predicciones y clasificaciones basadas en las probabilidades estimadas.
Se basan en estimar probabilidad de pertenencia a una clase o grupo mediante la estimación de las probabilidades condicionales inversas o “a priori”, utilizando para ello el Teorema de Bayes. Tal teorema establece una relación de la probabilidad de que tenga lugar un suceso A dado un suceso B con la probabilidad de que ocurra un suceso B dado un suceso A. Algunos algoritmos son muy populares como el clasificador bayesiano naive, los métodos basados en máxima verisimilitud y el algoritmo EM. A continuación, se presentan algunas técnicas predictivas bayesianas comunes para la modelización de datos:
· Inferencia bayesiana: La inferencia bayesiana es el enfoque fundamental utilizado en las técnicas predictivas bayesianas. Se utiliza para estimar la distribución posterior de los parámetros del modelo dado un conjunto de datos observados y una distribución previa. La inferencia bayesiana utiliza el teorema de Bayes para actualizar las creencias previas sobre los parámetros en función de la evidencia proporcionada por los datos observados.
· Modelos gráficos bayesianos: Los modelos gráficos bayesianos son una representación visual y matemática de las relaciones probabilísticas entre las variables. Utilizan grafos probabilísticos para modelar las dependencias entre las variables y se combinan con la inferencia bayesiana para estimar la distribución posterior. Los modelos gráficos bayesianos permiten modelar relaciones complejas y realizar predicciones basadas en la estructura del grafo y las probabilidades condicionales asociadas.
· Regresión bayesiana: La regresión bayesiana es una técnica predictiva utilizada para modelar y predecir relaciones entre variables continuas. Utiliza modelos bayesianos para estimar la distribución posterior de los coeficientes del modelo de regresión, lo que proporciona una distribución de probabilidad para las predicciones. La regresión bayesiana tiene la ventaja de proporcionar intervalos de confianza para las predicciones y permite la incorporación de conocimientos previos o creencias a través de distribuciones previas.
· Clasificación bayesiana: La clasificación bayesiana es una técnica utilizada para clasificar observaciones en diferentes categorías o clases. Utiliza modelos bayesianos y la regla de decisión de Bayes para asignar probabilidades de pertenencia a cada clase. La clasificación bayesiana proporciona una forma de estimar las probabilidades de clasificación y permite tomar decisiones basadas en las probabilidades de pertenencia a cada clase.
· Modelos de mezcla bayesianos: Los modelos de mezcla bayesianos son utilizados para modelar datos que se generan a partir de diferentes subpoblaciones o grupos. Estos modelos asumen que los datos provienen de una combinación de distribuciones y utilizan inferencia bayesiana para estimar las distribuciones latentes y asignar las observaciones a las diferentes subpoblaciones.
La característica principal de este conjunto de técnicas es que representan los modelos mediante lenguajes declarativos, como los lenguajes lógicos, funcionales o lógico-funcionales. Las técnicas de programación lógica inductiva son las más representativas y las que han dado nombre a un conjunto de técnicas denominadas minería de datos relacional.
Algunas de las técnicas en esta categoría son las siguientes:
· Modelos de grafos: Los modelos de grafos representan los datos mediante nodos y arcos, donde los nodos representan los objetos y los arcos representan las relaciones entre ellos. Los grafos pueden ser dirigidos o no dirigidos, y se pueden utilizar para modelar relaciones complejas entre entidades. Ejemplos de modelos de grafos incluyen el modelo de grafos RDF (Resource Description Framework) utilizado en la web semántica y los grafos de conocimiento utilizados en sistemas de recomendación.
· Bases de datos relacionales: Las bases de datos relacionales se basan en el modelo relacional, que organiza los datos en tablas y utiliza claves primarias y claves externas para establecer relaciones entre las tablas. Las bases de datos relacionales permiten realizar consultas declarativas utilizando el lenguaje SQL (Structured Query Language) para recuperar y manipular los datos.
· Lógica de predicados: La lógica de predicados es un marco formal para representar y razonar sobre las relaciones entre objetos. Se utiliza para expresar propiedades, restricciones y reglas en forma declarativa. La lógica de predicados se ha aplicado en áreas como la inteligencia artificial, la programación lógica y la representación del conocimiento.
· Ontologías: Las ontologías son modelos formales que representan el conocimiento en un dominio específico. Se utilizan para definir los conceptos, las propiedades y las relaciones en un dominio y establecer una estructura común para compartir el conocimiento. Las ontologías se utilizan en la web semántica, la integración de datos y la representación del conocimiento.
Bajo este grupo se incluyen la mayoría de las técnicas que, junto a las redes neuronales, forman lo que se denomina computación flexible. Son técnicas en las que o bien los componentes aleatorios son fundamentales, como los métodos evolutivos y genéticos o bien al utilizar funciones de pertenencia difusas.
Algunas técnicas comunes de esta categoría son:
· Modelos estocásticos: Los modelos estocásticos se basan en la teoría de probabilidades y estadísticas para representar y analizar los datos. Estos modelos capturan la aleatoriedad y la incertidumbre en los datos y permiten realizar inferencias probabilísticas. Algunos ejemplos de modelos estocásticos incluyen los modelos de regresión estocástica, los modelos ocultos de Markov y los procesos estocásticos.
· Lógica difusa: La lógica difusa es un marco formal para representar y manejar la imprecisión y la vaguedad en los datos. Se utiliza para capturar la incertidumbre en las variables y las relaciones difusas entre ellas. La lógica difusa se basa en conjuntos difusos, donde los elementos pueden tener grados de pertenencia a un conjunto en lugar de valores binarios. Esta técnica es especialmente útil cuando se trabaja con datos subjetivos o lingüísticos.
· Redes bayesianas difusas: Las redes bayesianas difusas combinan los conceptos de redes bayesianas y lógica difusa. Estas redes permiten modelar relaciones inciertas y difusas entre variables utilizando inferencia probabilística. Las redes bayesianas difusas son útiles para representar y razonar sobre conocimiento incierto y difuso en dominios complejos.
· Lógica borrosa: La lógica borrosa es otra técnica que se utiliza para capturar la imprecisión y la ambigüedad en los datos. Esta técnica se basa en conjuntos borrosos, donde los elementos pueden tener grados de pertenencia a un conjunto con valores continuos en lugar de valores binarios. La lógica borrosa se aplica en sistemas de control difuso, toma de decisiones y análisis de datos imprecisos.
Son técnicas que aprenden un modelo mediante el entrenamiento de los pesos que conectan un conjunto de nodos o neuronas. La topología de la red y los pesos de las conexiones determinan el patrón aprendido. Existen innumerables variantes de la según su funcionamiento: perceptrón simple, redes multicapa, redes de base radial, de retro propagación, etc.
A continuación, se presentan algunas técnicas comunes de redes neuronales artificiales utilizadas en la modelización de datos:
· Perceptrón multicapa (MLP, por sus siglas en inglés): El MLP es una de las arquitecturas de redes neuronales más comunes. Consiste en múltiples capas de neuronas, incluyendo una capa de entrada, una o más capas ocultas y una capa de salida. Cada neurona está conectada a las neuronas de las capas adyacentes a través de conexiones ponderadas. El MLP se utiliza para tareas de clasificación y regresión, y puede ser entrenado utilizando algoritmos de retro propagación.
· Redes neuronales convolucionales (CNN, por sus siglas en inglés): Las CNN son especialmente efectivas en el procesamiento de datos de tipo imagen. Estas redes están diseñadas para reconocer patrones locales y estructuras espaciales utilizando filtros convolucionales. Las CNN son ampliamente utilizadas en aplicaciones de visión por computadora, como la clasificación de imágenes y la detección de objetos.
· Redes neuronales recurrentes (RNN, por sus siglas en inglés): Las RNN son utilizadas para modelar datos secuenciales, donde la salida de una neurona se retroalimenta como entrada a las neuronas posteriores. Esto permite capturar la dependencia temporal en los datos. Las RNN son ampliamente utilizadas en el procesamiento del lenguaje natural, la generación de texto y la predicción de series temporales.
· Redes neuronales de memoria a largo plazo (LSTM, por sus siglas en inglés): Las LSTM son una variante de las RNN que han demostrado ser efectivas en el modelado de secuencias largas y en la captura de relaciones a largo plazo. Las LSTM tienen una estructura de memoria interna que permite recordar información relevante a lo largo del tiempo y evitar el problema del desvanecimiento del gradiente.
Se trata de técnicas que intentan maximizar el margen entre los grupos o las clases formadas. Para ello se basan en unas transformaciones que pueden aumentar la dimensionalidad, estas transformaciones se denominan kernels o nucleos.
A continuación, se describen brevemente las técnicas basadas en núcleo y máquinas de soporte vectorial:
· Técnicas basadas en núcleo: Las técnicas basadas en núcleo se utilizan para transformar los datos en espacios de mayor dimensionalidad, donde los patrones y las relaciones entre los datos son más fáciles de distinguir. Estas técnicas se basan en la idea de mapear los datos originales en un espacio de características mediante funciones de núcleo, como el núcleo lineal, el núcleo polinomial y el núcleo gaussiano. Al transformar los datos, se puede aplicar un clasificador lineal en el espacio de características para resolver problemas no lineales en el espacio original.
Máquinas de soporte vectorial (SVM): Las SVM son un tipo específico de técnica basada en núcleo que se utiliza tanto para clasificación como para regresión. El objetivo de las SVM es encontrar el hiperplano que mejor separa las muestras de diferentes clases en el espacio de características. Estos hiperplanos se seleccionan de manera que maximicen el margen entre las muestras más cercanas de diferentes clases. Las SVM pueden utilizar diferentes funciones de núcleo para manejar problemas no lineales, y su capacidad para trabajar en espacios de alta dimensión las hace especialmente adecuadas para conjuntos de datos complejos.
Además de las técnicas mencionadas anteriormente, existen otras técnicas predictivas utilizadas en la modelización de datos. A continuación, se mencionan algunas de estas técnicas:
· Árboles de decisión: Los árboles de decisión son estructuras jerárquicas que se utilizan para tomar decisiones o realizar predicciones basadas en reglas de evaluación. Cada nodo del árbol representa una variable y las ramas representan posibles valores o combinaciones.
· Bosques aleatorios: Los bosques aleatorios son un conjunto de árboles de decisión que se combinan para realizar predicciones. Cada árbol se construye utilizando una muestra aleatoria del conjunto de datos y una selección aleatoria de características. Las predicciones finales se obtienen promediando las predicciones de cada árbol.
· K-vecinos más cercanos (K-NN): El método K-NN se basa en la idea de que las muestras similares tienden a pertenecer a la misma clase. Este algoritmo calcula la distancia entre una nueva muestra y las muestras de entrenamiento para determinar las K muestras más cercanas. La clase de la nueva muestra se determina por mayoría de votos de las K muestras vecinas.
· Modelos de Markov ocultos (HMM, por sus siglas en inglés): Los HMM son modelos estadísticos utilizados para modelar secuencias de datos con propiedades de dependencia temporal. Estos modelos se basan en la idea de que las variables observadas son influenciadas por variables ocultas o estados latentes. Los HMM se utilizan en aplicaciones como el reconocimiento del habla, el procesamiento del lenguaje natural y la detección de anomalías.
(Beltrán, 2014)
Existen muchas herramientas de software para el desarrollo de modelos de minería de datos tanto libres como comerciales como, por ejemplo:
Herramientas de minería de datos de software libre:
· Orange
· Rapidminer
· Weka
· JHepWork
· KNIME
· R
Herramientas de minería de datos de software propietario:
· SAS
· IBM SPSS Modeler
· Oracle Data Mining
· SAP Business Object
· Microsoft SQL Server Data Mining
La recopilación de información personal es preocupante porque se realiza de forma deliberadamente silenciosa. Y el ser humano suele ignorar los peligros que no le son evidentes: cree tener su vida bajo control sin tener presente que personas ajenas a su entorno toman ciertas decisiones que les afectan, basándose en datos personales que no ha proporcionado de manera consciente, o que creía olvidados o secretos.
Objetos cotidianos como la tarjeta de crédito o la del supermercado generan una información valiosa que permite afinar las estrategias de marketing y hacerlas más efectivas que las tradicionales, porque ya se sabe qué compra y cuánto gasta un determinado conjunto de clientes. Los supermercados analizan las compras para detectar asociaciones entre los artículos. Los que se suelen comprar juntos, ¿deben estar próximos entre sí, para priorizar la comodidad del cliente, o separados para prolongar su permanencia en el establecimiento e incitarlo así a que haga compras imprevistas? La minería de datos revela cómo se puede influir sobre las personas y cómo se las puede manipular para obtener un beneficio que no suele ser mutuo, sino exclusivo de quien posee y explota esos datos. Las empresas de telefonía móvil registran información valiosa sobre cada abonado: dónde está, a dónde viaja, a quién llama, cuánto gasta. Pueden saber si un cliente es líder de un grupo social o si tiende más bien a quedarse al margen. Hasta pueden detectar clientes descontentos, y hacerles llegar ofertas tentadoras para que renueven el contrato.
(Garriga, 2004)
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17(3), 37. https://doi.org/10.1609/aimag.v17i3.1230
Beltrán Martínez, B. (2014). MINERÍA DE DATOS. [Beneméritca Universidad Autónoma de Puebla]. Recuperado http://bbeltran.cs.buap.mx/NotasMD.pdf
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T.P., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0: Step-by-step data mining guide.
Joyanes Aguilar, L. (2019). INTELIGENCIA DE NEGOCIOS Y ANALÍTICA DE DATOS – UNA VISIÓN GLOBAL DE BUSINESS INTELLIGENCE & ANALYTICS Bogotá: Alfaomega.
Garriga, Elisabet y Doménec Melé (2004). “Corporate social responsibility theories: mapping the territory”. Journal of Business Ethics, 53(1-2), 51-71.