Tarea 1: Análisis Exploratorio y Preprocesamiento
Fecha de entrega: 23 de Agosto
Formato: por escrito
Grupos de máximo 2 estudiantes
Descargar el siguiente conjunto de datos credit-german.csv e impórtelo en RapidMiner
Genere una hipótesis del origen y significado de los datos.
Número de instancias
Número de atributos
¿El conjunto de datos está etiquetado? ¿Cuántas clases tiene el conjunto de datos?
¿Cuántos atributos son numéricos y cuántos categóricos?
Reporte la moda para cada atributo categórico
Reporte la media, rango y desviación estándar para cada atributo numérico
Determine el número de valores faltantes para cada atributo
Determine la distribución de las clases
Determine si existen atípicos de los datos
Responda las siguientes preguntas:
¿Cuál es lo propósito predominante de los préstamos?
¿Qué tipo de estatus tienen las personas que más hacen préstamos? ¿Y el perfil de la de menos préstamos? ¿Cuál es el perfil de las personas que hacen los prestamos más costoso? ¿Y el de los menos costosos?
¿Puede establecer alguna relación entre edad, estatus personal y la clase?
¿Puede establecer alguna relación entre clase de trabajo, el número de créditos, estatus personal y la clase?
¿Existe alguna relación entre la cantidad solicitada y el número de meses del préstamo?
¿Existe alguna relación entre la edad, el estatus, la clase y la cantidad del préstamo?
Pruebe diferentes combinaciones entre los atributos y establezca las relaciones entre ellos, reporte la herramienta de visualización que utilizó para tal fin
Realice los siguientes procedimientos sobre alguno de los atributos del conjunto de datos, analice los resultados y extraiga resultados
Análisis de rangos intercuartiles
Histogramas
Gráfica de dispersión
Gráficas de coordenadas paralelas
Proponga tres preguntas y resuélvalas a partir de técnicas de visualización