Hoy en día se escuchan muchos términos como:
Inteligencia Artificial
Aprendizaje Automático (Deep Learning)
Redes Neuronales
Minería de Datos (Data Mining)
etc.
Actividad 0. Para introducir al tema de BigData, vamos a ver el documental "El gran hackeo".
Actividad 1. Lee el siguiente artículo: Los peligros del Big Data. Después escribe un documento donde respondas a las siquientes cuestiones:
¿Quién es Cathy O'Neil? ¿Dónde trabajó y por qué tiene conocimientos sobre Big Data?
Cathy O'Neil utiliza el término Weapons of Math Destruction. Este término se asemeja a otro término con las mismas siglas (WMD) empleado en entornos militares. ¿De qué termino se trata?¿Por qué crees que ha elegido ese nombre?
¿Qué problema cree Cathy O'Neil que tienen los modelos matemáticos para crear un mundo más injusto? Pon al menos dos ejemplo expuestos en el artículo.
¿Cree Cathy O'Neil que existen modelos matemáticos predictivos perfectos?¿Por qué lo cree?
Entrega un documento con las respuestas en la actividad Act1_BigData
Actividad 2. La ciencia de datos tienen implicaciones mucho más profundas que el análisis científico de los datos. Con el "limitado" desarrollo actual de la tecnología, se han dado casos controvertidos de usos de la ciencia de datos. Investiga qué es Cambridge Analytica y de qué forma utilizó la Big Data almacenada en Facebook. Los artículos siguientes pueden ofrecerte la información que necesitas:
https://www.bbc.com/mundo/noticias-43472797
Lee los dos artículos. Responde a las siguientes preguntas:
¿Cuál es el objetivo de la (ya desaparecida) empresa Cambridge Analytica?
Cambridge Analytica se fundó a partir de un gran volumen de datos sobre personas que se extrajeron de una importante red social ¿De qué clase de datos se trataba?
¿Qué procedimiento se empleó para obtener los datos?
¿De qué forma se emplearon las noticias inventadas o manipuladas?¿Qué emociones e ideas se consiguen generar en el lector a través de este tipo de noticias que no aparecen en las fuentes de información principales?
¿Quién es Steve Bannon? ¿Qué interés puede tener en la información que le podía proporcionar Cambridge Analytica?
¿Qué efecto tuvo el trabajo de Cambridge Analytica en las elecciones presidenciales de EEUU en 2017?
Entrega un documento con las respuestas en la actividad Act2_BigData
Primero debemos dejar claras algunas definiciones:
Un dato es un elemento simple que describe un hecho real. Se trata de texto, números o símbolos que describen el valor de algo. Por ejemplo, "azul", "verde", 15 o 33,7 son datos.
Ejemplos:
3, 6, 9, 12,
gato, perro, ratón, vaca, oveja
161.2, 175.3, 166.4, 164.7, 169.3
La información se extrae de los datos, una vez que han sido procesados, y tiene un significado que se puede interpretar, lo que permite tomar decisiones o sacar conclusiones en base a ella.
¿Cuándo se convierten los datos en información?
Los datos no tienen significado, sólo valor. Toman significado cuando se interpretan. Es decir, cuando los datos tienen un significado, son información. Proporciona respuestas a preguntas del tipo Quién, Cuál, Cuándo, Por qué, Qué y/o Cómo.
Datos + Significado = Información
Ejemplo. Dados los datos anteriores, sólo cuando asignamos un contexto o significado se convierten en información:
3, 6, 9, 12 son los cuatro primeros valores de la tabla del 3
gato, perro, ratón, vaca, oveja es una lista de animales de granja
161.2, 175.3, 166.4, 164.7, 169.3 son las alturas de estudiantes de 15 años
Información + Uso práctico = Conocimiento
Por ejemplo, si vemos la información anterior:
3, 6, 9, 12 son los cuatro primeros valores de la tabla del 3
gato, perro, ratón, vaca, oveja es una lista de animales de granja
161.2, 175.3, 166.4, 164.7, 169.3 son las alturas de estudiantes de 15 años
Podemos obtener el siguiente conocimiento:
4, 8, 12 y 16 son los cuatro primeros valores de la tabla del 4 (porque la tabla del 3 empieza en 3 y va subiendo de 3 en 3, por tanto la tabla del 4 empieza en 4 y va subiendo de 4 en 4)
Un león no es un animal de granja ya que no está en la lista de animales de granja.
El estudiante más alto mide 175.3 cm
Para practicar
Ejercicio 1.
Aporta 5 datos
Indica de qué información se trata
Extrae un conocimiento de esta información
Ejercicio 2. Indica si lo siguiente son datos, información o conocimiento
5.10, 6.25, 4.33, 7.12, 5.90
Tiempo de llenado de los depósitos de los coches en una gasolinera
El tiempo de llenado de los depósitos de los coches oscila entre 4 y 8 minutos.
Actividad 3. Clasifica las siguientes líneas como datos, información o conocimiento.
nublado, nuboso, soleado
Velocidad media de los corredores de la maratón
Los mayoría sujetos que pasaron la primera prueba también pasaron la segunda
24º, 24º, 25º, 27º, 29º, 32º, 36º, 37º, 38º, 37º, 33º, 30º
Fecha de las misiones del cohete Soyuz
La probabilidad de lluvia aumenta con la humedad del ambiente
Entrega un documento indicando delante de cada ítem de la lista anterior si se trata de dato, información o conocimiento.
Para que los datos utilizados tengan utilizad, y el conocimiento extraído de ellos suponga una ventaja, se deben cumplir las 5 Vs:
Se refiere a la cantidad de datos generados y recopilados. En la era del Big Data, las organizaciones deben manejar terabytes, petabytes e incluso exabytes de datos. Si el volumen de datos es insuficiente, los resultados de analizar los datos pueden ser erróneos.
Se refiere a la rapidez con la que se generan y procesan los datos. Dependiendo del campo de estudio, la velocidad mínima necesaria puede variar. En general es mejor tener menos información muy actualizada, que mucha información obsoleta.
Los datos se pueden presentar de muchas formas diferentes (texto, imágenes, vídeos, números). Una mayor variedad de datos puede dar como resultado mejores análisis.
Se refiere a la calidad y fiabilidad de los datos. Unos datos poco veraces tendrán menos precisión, autenticidad, y consistencia. Las decisiones acertadas se basarán correctos y confiables.
El valor se refiere a la importancia o utilidad de los datos para un propósito específico. Por ejemplo, una empresa que vende ropa deportiva puede encontrar valor en los datos de las personas que siguen a influencers del fitness.
La visualización de datos es una técnica que permite representar información de manera gráfica para facilitar su comprensión. Al trabajar con Big Data, es crucial convertir los datos en información comprensible y accesible. Gráficos, mapas, tablas y diagramas son ejemplos de herramientas de visualización que nos ayudan a entender patrones, tendencias y relaciones entre los datos.
El análisis de datos es el proceso de examinar, procesar y transformar los datos recogidos para extraer información útil y generar conocimientos. En el Big Data, el análisis se lleva a cabo mediante herramientas y técnicas avanzadas que pueden manejar grandes volúmenes de datos y encontrar patrones, tendencias y relaciones ocultas.
Hay diferentes tipos de análisis de datos en el contexto del Big Data:
Análisis descriptivo: Se enfoca en describir y resumir los datos, utilizando herramientas de visualización y estadísticas para identificar patrones y tendencias. Por ejemplo, en una plataforma de Trading, el análisis descriptivo nos mostrará cómo se han comportado las acciones de una empresa.
Análisis predictivo: Utiliza algoritmos y técnicas de aprendizaje automático para predecir eventos futuros o comportamientos basándose en los datos históricos. Por ejemplo, en el caso de una plataforma de Trading, el análisis predictivo indica cómo se van a comportar los datos en el futuro en función de cómo se ha comportado en el pasado.
Análisis prescriptivo: Propone acciones o decisiones basadas en el análisis predictivo, optimizando resultados y solucionando problemas. Por ejemplo, en el caso de una plataforma de Trading, el análisis prescriptivo recomienda que inversión realizar.
Vamos a ver si existe una relación entre el crecimiento de la población española y la población de las ciudades y los pueblos. Es decir:
A medida que crece la población española:
¿Crece la población de los pueblos o disminuye?
¿Crece la población de las ciudades o disminuye?
Los pasos son:
Entra en https://www.worldometers.info, donde se ofrecen datos de la población mundial en tiempo real.
Pulsa en Population, busca y pulsa en Spain (Al final de la página). Verás los datos de España y algunas gráficas.
Desplázate hasta el final de la página y copia todos los datos de la tabla seleccionándolos con el ratón (Un analista de datos lo haría con un algoritmo).
4. Abre una hoja de calculo de Google (con la cuenta de correo del instituto).
Los datos copiados utilizan la coma para los separadores de miles y el punto para los decimales (Al contrario que nosotros), así que tendremos que cambiar de país en Archivo -> Configuración y elegir México (No olvides Guardar la configuración).
5. Pulsa sobre la celda A1 y pulsa la combinación de teclas Ctrl + May + V, para pegar correctamente todos los datos en nuestra hoja de cálculo.
6. Inserta una fila encima de la primera fila, de forma que copies y pegues las cabeceras. El resultado debería ser algo así:
de tu elección
7. Necesitamos cuatro informaciones únicamente:
Año
Población española
Población de las ciudades
Población de los pueblos.
8. Vamos a borrar varias columnas. La hoja de cálculo debería quedar así:
9. Vamos a calcular la población de los pueblos, es decir, la población total menos la población urbana. La fórmula debería ser la siguiente:
10. Aplica esta fórmula a todas las filas de la columna, para obtener la población de los pueblos cada año.
11. Selecciona las cuatro columnas e inserta un gráfico de tipo línea.
Existe una gráfica infalible: la gráfica de dispersión. Para los datos anteriores, las gráficas de dispersión son las siguientes:
Población total / Población urbana
Población total / Población rural
Compara con la siguiente gráfica de dos variables que no tienen una relación clara:
Hemos recopilado los siguientes datos de un terreno que está junto a la autovía, donde nuestro cliente planta diferentes tipos de cultivo. Para maximizar el rendimiento del cultivo, necesita poder predecir el agua que recibe el suelo. Nuestro trabajo consiste en encontrar alguna relación entre las variables que aparecen en la tabla y la cantidad de agua recibida por el suelo.
Vamos a buscar patrones que relacionen unas variables con otras.
Actividad 4. El ayuntamiento está preocupado por el número de accidentes que se producen en las rutas de regreso a casa tras la jornada laboral. Se han recopilado diferentes datos aparentemente inconexos, y el ayuntamiento quiere saber si existe alguna forma de entender y predecir qué provoca que los accidentes varíen tanto de un día a otro.
Representa gráficamente los diferentes datos, buscando un patrón de comportamiento para series temporales. Por ejemplo, crea una gráfica de barras que tenga la fecha en el eje x, y veas cómo evolucionan.
Intenta encontrar un patrón claro entre el número de accidentes y algún otro parámetro, que permita predecir cuándo se va a producir un incremento en los accidentes.
Una vez que lo averigües, en base a los datos, propón una medida que pueda influir positivamente en el número de accidentes.
Entrega un informe donde incluyas:
Una gráfica que muestre un patrón claro para una serie temporal.
Una gráfica que demuestre la relación entre dos de las variables. La gráfica debe incluir títulos para el eje horizontal y el vertical, de forma que se pueda ver de qué variables se trata.
Una explicación lógica a las gráficas obtenidas. Es decir, extrae conocimiento de las gráficas y da una explicación lógica que justifique la relación.
Una propuesta que permita reducir el número de accidentes.
NOTA: Se valorará:
La calidad de presentación.
La calidad de las explicaciones.
En esta imagen se puede ver una regresión lineal. La línea roja es una línea predictiva sobre los valores (x, y) de la gráfica. Es decir, una vez que hemos obtenido la línea, podemos predecir cuál será el valor de y a partir de un valor cualquiera de x.
El valor es una predicción aproximada, y siempre existirá un error, pero el valor obtenido es suficientemente bueno como para tomar decisiones.
La regresión lineal se utiliza para muchos estudios, en los que se sabe que existe una relación lineal entre los valores, para así poder hacer predicciones. En una regresión lineal, tenemos un conjunto de valores (x,y), como por ejemplo la relación entre el peso de un vehículo y su consumo. Supongamos que tenemos los siguientes valores obtenidos de varios coches:
Mediante una regresión lineal podríamos obtener respuesta a la siguiente pregunta: ¿Qué consumo tendrá un coche que pesa 1100kg?
En el siguiente vídeo, muestro cómo se puede calcular una regresión lineal utilizando una hoja de cálculo de LibreOffice Calc
La matemática que hay detrás de una regresión lineal es la siguiente:
Necesitamos calcular dos constantes:
B
a
Estas constantes se calculan del siguiente modo:
LibreOffice Calc lo hace por nosotros y nos da el valor de las constantes a y B. Finalmente, podemos predecir valores de Y a partir de un valor de X.
Ejemplo propuesto: En el ejemplo propuesto, llamaremos Y al valor que deseamos conocer (consumo) y X al valor que suministramos (peso).
Otros ejemplos pueden ser:
Predicción del gasto de una familia a partir de sus ingresos
Predicción de la esperanza de vida en función del consumo de drogas (de hecho, la relación entre tabaco y cáncer se obtuvo por primera vez mediante una regresión lineal).
Predicción de la altura de un individuo a partir del tamaño del pié a los 5 años de edad.
Para practicar:
La siguiente tabla muestra el índice de mortalidad a partir del número de cigarrillos fumados al día.
A partir de estos datos:
¿Podemos decir que existe una relación entre el tabaco y el índice de mortailidad?
¿Cuál es el índice de mortalidad de una persona que fuma dos paquetes y medio de tabaco al día? (50 cigarros al día).
Actividad 5. Un centro comercial sabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de población, el número de clientes que acuden diariamente.
Entrega una hoja de cálculo donde realices los cálculos necesarios. Utiliza la siguiente plantilla para configurar tu hoja de cálculo:
Entrega un documento donde muestres el valor de B y a. También debes incluir la respuesta a las preguntas.
Crea una tabla de valores a partir de la regresión que has calculado.
Calcula el error cometido para los valores conocidos según la tabla de que disponías al principio del enunciado.
Responde a las siguientes preguntas utilizando una regresión lineal:
Si el centro comercial se sitúa a 20km ¿Cuántos clientes se pueden esperar?
Si se desea recibir 500 clientes ¿A qué distancia del núcleo de población debe situarse?
Entrega:
La hoja de cálculo con los cálculos realizados.
Un informe donde incluyas:
Un título describiendo el asunto tratado
Una introducción explicando los datos disponibles y lo que se pretende predecir.
Una gráfica que incluya la dispersión XY de los datos con la línea de tendencia y la ecuación correspondiente.
Un apartado donde muestres la ecuación obtenida.
La respuesta obtenida para cada pregunta. Explica claramente las operaciones matemáticas realizadas., con capturas donde se pueda ver de dónde has sacado la respuesta a cada pregunta.
Aquí tienes un ejemplo de informe para el ejemplo visto anteriormente sobre el número de accidentes.
Actividad 6. Aplica una regresión del tipo de consideres apropiado para responder a la siguiente pregunta:
¿Cuántas personas habrá en España en el año 2070?
Justifica la elección del modelo de regresión que has elegido.
Entrega un documento similar al anterior donde se pueda ver el cálculo que has hecho a partir de https://www.worldometers.info/ y las personas habrán en España en el año 2040.
Existen muchas otras funciones de regresión, que pueden ajustarse mejor según los datos. LibreOffice Calc nos ofrece las siguientes, además de las regresiones lineales:
Regresión Logarítmica
Su ecuación es:
y = a ln(x) + b
donde ln(x) es el logaritmo natural de x.
Ejemplo: La rapidez con la que una persona aprende un idioma: al principio mejora rápido, pero luego el progreso se ralentiza.
Su ecuación es:
y = aebx
donde e es una constante matemática (aproximadamente 2.718).
Ejemplo: El crecimiento de bacterias en una placa de cultivo, donde al inicio hay pocas, pero su número se dispara rápidamente.
Su ecuación es:
y = axb
Ejemplo: La relación entre el área de un círculo y su radio A = πr²
Es una ecuación más compleja, con términos de grado superior:
y = anxn + an−1 xn−1 + ⋯ + a1 x + a0
Puede formar curvas con picos y valles.
Ejemplo: La trayectoria de un balón lanzado en el aire sigue una parábola y=ax2+bx+c
No es una función matemática, sino un método que suaviza los datos para ver tendencias eliminando fluctuaciones bruscas. Se calcula promediando un número determinado de valores consecutivos.
Ejemplo: En economía, para analizar la evolución del precio de un producto eliminando variaciones diarias.
Vamos a ver un ejemplo práctico de análisis predictivo que puede ayudarnos a la toma de decisiones. Para ello vamos a utilizar una aplicación con solera, pero que sigue en plena forma. La aplicación que vamos a utilizar se llama Weka (Waikato Environment for Knowledge Analysis), un software de la universidad de Waikato (Nueva Zelanda).
Para instalar Weka, debemos descargar el software desde aquí. La descarga es un archivo .zip que hay que descomprimir. Dentro de la carpeta descomprimida, podremos ver un archivo llamado weka.sh.
Haciendo doble clic sobre este archivo, abriremos el software, obteniendo una ventana como la siguiente:
Si hemos entendido qué es Big Data y Data Mining, sabremos que necesitamos una colección de datos con la información de interés. Weka utiliza un formato de datos especial, con extensión .arff. Se trata de un archivo de texto plano (escrito con un editor de textos simple, no un procesador de textos), que tiene un formato muy concreto.
Vamos a utilizar los datos siguientes: https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.arff
Estos datos contienen información sobre las condiciones del tiempo, y si se juega (al tenis) o no:
Outlook (previsión), es de tipo enumerado que puede ser soleado, cubierto o lluvioso.
Temperature, es la temperatura y es de tipo real.
Humidity, es el nivel de humedad, y es de tipo real.
Windy, es de tipo enumerado, y puede ser verdadero o falso.
Play, es de tipo enumerado, y puede ser sí o no.
Se dispone de datos recogidos durante 14 días distintos, y el objetivo es determinar cuál es la relación entre las condiciones del tiempo y la decisión de jugar o no al tenis.
Haciendo clic sobre el botón "Explorer" abrimos la interfaz Explorer de Weka.
Para cargar la base de datos se utilizará el botón OPEN FILE del interfaz Explorer (pestaña Preprocess), se seleccionará el directorio data y dentro de él, el fichero weather.arff. El resultado será una pantalla como la que se muestra en la figura:
En la parte izquierda de la pantalla aparecen los cinco atributos mencionados:
Outlook
Temperature
Humidity
Windy
Play
Haciendo clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana.
Para los árboles de decisión se probará uno de los algoritmos de aprendizaje automático incluidos en WEKA: J48. Se intentará generar un árbol de decisión que se corresponda con los ejemplos de la base de datos siguiente: weather.arff. Para ello se seleccionará la pestaña Classify y se elegirá un clasificador pulsando el botón Choose.
Aparecerá una estructura de directorios en la que se seleccionará el directorio trees y dentro del él el algoritmo J48, uno de los más utilizados. Se mantendrán las opciones por defecto del clasificador (J48 –C 0.25 –M 2), tal y como muestra la pantalla siguiente.
El resto de opciones para el experimento también se mantendrán en los valores por defecto: activa la opción de test ‘cross validation’ e inactivas las restantes. Para generar el árbol se pulsará Start.
En la actividad anterior se comprobó la relación entre las variables dos a dos. Pero esta estrategia puede ser incompleta, ya pueden haber relaciones aparentemente ocultas entre las variables que no se vean a simple vista. Con el algoritmo de análisis que hemos utilizado, podemos ver la información resultante.
En la información resultante, podemos ver lo siguiente:
En primer lugar, se muestra información sobre el tipo de clasificador utilizado (algoritmo J48), la base de datos sobre la que se trabaja (weather) y el tipo de test (cross validation).
A continuación se muestra el árbol que se ha generado y el número de instancias que clasifica cada nodo.
Y por ultimo se muestran los resultados del test (indican la capacidad de clasificación esperable para el árbol y la matriz de confusión), indicando el porcentaje de error. Nos da una idea de la capacidad de acierto que tiene el modelo. Según los datos obtenidos, dos de cada tres veces acertaremos.
Lo que indica el árbol anterior es que:
Si el día es soleado y la humedad es inferior al 75%, se juega, pero si la humedad es mayor, no se juega.
Si el día está nublado, se juega.
Si el día está lluvioso y hay viento, no se juega, pero si no hay viento, se juega.
Si hacemos clic con el botón derecho sobre el resultado, y hacemos clic sobre la opción obtendremos una vista gráfica del árbol
Un archivo de datos para Weka contiene tres partes.
La primera viene dada por el nombre de la relación de datos. Por ejemplo, si nuestros datos tienen que ver con el videojuego adquirido por diferentes personas, la relación podría llamarse 'compras videojuegos'.
@relation 'compras videojuegos'
Una cabecera con la definición de las variables (atributos según Weka) y sus posibles valores. La definición de un atributo se hace del siguiente modo:
@attribute <nombre_variable> <tipo_de_dato>
Donde el nombre_variable es un nombre como edad, peso o ciudad. Hay que indicar que tipo de dato soporta una variable. Los tipos más habituales son:
NUMERIC: números naturales
REAL: números reales (con decimales)
INTEGER: números enteros
DATE 'dd-MM-yyyy HH:mm:ss': fechas indicando el formato de fecha entre comillas. Para el formato indicado, una fecha válida sería '15-09-2021 10:43:12'
STRING: cadenas de caracteres, como un nombre de ciudad o un apellido.
ENUMERADOS: se indica entre llaves los valores posibles. Por ejemplo {Windows, 'Distro Linux', 'MacOS'} o {As, 2, 3, 4, 5, 6, 7, Sota, Caballo, Rey}
NOTA: El tipo de datos boolean (verdadero/falso) no se incluye en Weka, por lo que se puede definir como un tipo enumerado {TRUE, FALSE}
Por ejemplo, para nuestro ejemplo de los videojuegos, la declaración de variables puede ser como sigue:
@attribute 'Producto Adquirido' {'Mass Effect 3', 'Crysis 3', 'Dead Space 3', 'Fifa 13', 'F1 2012', 'Battlefield 3', 'KOA: Reckoning', 'Sim City'}
@attribute Edad INTEGER
@attribute Sexo {Hombre, Mujer}
@attribute Plataforma {PC, 'Xbox 360', PS3, Otros}
@attribute 'Consumidor habitual' {TRUE, FALSE}
@attribute Presupuesto NUMERIC
La sección de datos comienza con una declaración, que es una simple línea que denota el comienzo:
@data
A continuación se describen los datos, en el mismo orden en que se definen las variables. Siguiendo el ejemplo anterior, una línea de la sección de datos podría ser:
'Mass Effect 3', 29, Mujer, PC, TRUE, 200
Todo junto
El contenido del archivo podría ser como sigue:
%SORTEO
@relation 'compras videojuegos'
%ATRIBUTOS POR ORDEN DE APARICIÓN EN LA DESCRIPCIÓN
@attribute 'Producto Adquirido' {'Mass Effect 3', 'Crysis 3', 'Dead Space 3', 'Fifa 13', 'F1 2012', 'Battlefield 3', 'KOA: Reckoning', 'Sim City'}
@attribute Edad INTEGER
@attribute Sexo {Hombre, Mujer}
@attribute Plataforma {PC, 'Xbox 360', PS3, Otros}
@attribute 'Consumidor habitual' {TRUE, FALSE}
@attribute Presupuesto NUMERIC
%DATOS DE LOS PARTICIPANTES
@data
'Mass Effect 3',29, Mujer, PC, TRUE,295
'Sim City', ?, Mujer, Otros, TRUE,?
'Dead Space 3',22, Hombre, 'Xbox 360', FALSE,240
'Battlefield 3',28, Mujer, 'Xbox 360', TRUE,262
'KOA: Reckoning',30, Mujer, PC, ?,339
'Crysis 3',17, Hombre, PS3, FALSE,149
'Mass Effect 3',33, Hombre, Otros, FALSE,348
'Battlefield 3',52, Hombre, PC, TRUE,548
'Mass Effect 3',21, Hombre, PS3, TRUE,181
'Fifa 13',14, Hombre, PS3, TRUE,113
'F1 2012',34, Hombre, PS3, TRUE,300
'Crysis 3',30, Hombre, PC, FALSE,334
'Dead Space 3',31, Hombre, PS3, TRUE,309
'Sim City',37, Mujer, PC, FALSE,384
'Fifa 13',25, Hombre, PS3, TRUE,294
'Mass Effect 3',24, Mujer, 'Xbox 360', TRUE,233
'Fifa 13',16, Mujer, PC, TRUE,120
'Mass Effect 3',15, Hombre, PS3, TRUE,135
'Crysis 3',16, Mujer, 'Xbox 360', TRUE,172
'KOA: Reckoning',25, Hombre, PS3, TRUE,220
'Battlefield 3',26, Hombre, ?, FALSE,256
'Mass Effect 3',26, Hombre, PS3, FALSE,280
'Sim City',44, Hombre, PS3, TRUE,402
'Battlefield 3',39, Hombre, PS3, TRUE,373
'KOA: Reckoning',17, Mujer, PS3, TRUE,184
'Fifa 13',37, Hombre, 'Xbox 360', FALSE,374
'F1 2012',19, Hombre, PC, FALSE,215
'KOA: Reckoning',22, Mujer, PC, FALSE,246
'Mass Effect 3',19, Hombre, ?, FALSE,193
'Dead Space 3',18, Mujer, PS3, TRUE,198
'Mass Effect 3',24, Hombre, PC, TRUE,262
'KOA: Reckoning',33, Hombre, 'Xbox 360', TRUE,295
'Crysis 3',21, Hombre, Otros, TRUE,175
'F1 2012',21, Mujer, PS3, TRUE,250
'KOA: Reckoning',33, Hombre, PC, FALSE,323
'Sim City',26, Mujer, 'Xbox 360', TRUE,286
'Fifa 13',15, Hombre, PC, FALSE,150
'Fifa 13',19, Hombre, Otros, TRUE,161
'Mass Effect 3',48, Hombre, PS3, TRUE,489
'Mass Effect 3',35, Mujer, 'Xbox 360', TRUE,372
'Crysis 3',36, Hombre, 'Xbox 360', TRUE,320
'Dead Space 3',51, Hombre, 'Xbox 360', TRUE,486
Actividad 8. Contamos con datos sobre la posibilidad de fallo de una máquina en función de ciertos atributos medidos:
vibraciones
temperatura
tiempo desde la última revisión
horas de funcionamiento
Estos datos se muestran a continuación:
Crea un fichero con los datos anteriores en formato WEKA y guardarlo con la extensión .arff. En la cebecera del fichero debe aparecer la línea siguente:
@relation XXXX_YYYY_ZZZZ
donde XXXX_YYYY_ZZZZ deben ser el nombre y apellidos del alumno.
NOTA: Puede serte de utilidad este archivo con los datos escritos.
Abrir el fichero .arff creado desde WEKA y generar un árbol de decisión sobre esos datos. Copiar en el informe tanto el resultado ofrecido en modo texto como la representación gráfica del árbol de decisión.
Entrega lo siguiente:
El archivo .arff
El informe obtenido de aplicar el algoritmo de aprendizaje automático J48
Una captura del árbol de decisión generado
En un documento, explica qué medidas de control recomendarías al propietario de la máquina para evitar que falle. Como consultor/a, debes escribir un texto que comience por: "Para evitar un fallo de la máquina, la recomendación es..."
Organízate en grupos de 3 personas. Para ello, deberás cubrir los siguientes aspectos:
Discutid y eligid la información que vas a utilizar para tu análisis. Esta información puede incluir los siguientes ejemplos:
Horas dedicadas en casa a estudiar diariamente
Nivel de atención en clase (0 - 10)
Descanso el día antes de un examen
Número de horas diarias dedicadas a ver el móvil
Nota media aproximada del curso pasado
Etc.
Cread un formulario de Google donde solicites esta información y pide a tus compañeros que lo rellenen. Deberéis activar la recogida del correo electrónico, para garantizar un poco de seriedad en los datos.
Publicad vuestro formulario y pedid a vuestros compañeros que lo rellenen en clase.
Transformad la información contenida en el formulario en una hoja de cálculo.
Eliminad aquellos datos que consideréis absurdos o innecesarios.
Buscad tendencias en los datos. Para ello, podéis buscar correlaciones entre las variables. Para ser más eficaces, podéis repartiros el trabajo, y encargarse cada uno de buscar una relación entre una variable concreta y el resto.
Cread una presentación que contenga un informe con el conocimiento extraído.
Cada grupo deberá salir durante 5/10 minutos a explicar sus hallazgos.