Taller 4

    1. Descargue el conjunto de datos nba.txt y lea la descripción del mismo en la cabecera del archivo.

    2. Cargue el conjunto de datos en RapidMiner.

    3. Entrene un árbol de decisión:

      1. Haga una partición del conjunto de datos, usando muestreo estratificado, en 70% para entrenamiento y 30% para test (operador: Split Data).

      2. Entrene el modelo (operador: Decision Tree).

      3. Aplique el modelo al conjunto de test (operador: Apply Model).

      4. Mida el desempeño del modelo (operador: Performance) calculando exactitud, error de clasificación, precisión, índice de recuperación y área bajo la curva ROC.

      5. Interprete el modelo obtenido:

        1. Cuál el el atributo más discriminante? Tiene sentido? De una explicación a partir del conocimiento del problema.

        2. Genere 3 diferentes reglas de clasificación a partir del árbol. Explíquelas.

    4. Complejidad del modelo y sobre-aprendizaje:

      1. Modifique el modelo anterior para que también calcule el desempeño en el conjunto de entrenamiento.

      2. Haga diferentes pruebas cambiando la profundidad máxima del árbol en el operador Decisión Tree. Pruebe los valores 1,2,...,10.

      3. Grafique la profundidad del árbol contra la evolución del error de entrenamiento y el error de prueba.

      4. De acuerdo con la gráfica, ¿Cuál sería un buen valor de profundidad para el árbol?

    1. Curva de aprendizaje:

      1. Cambie la proporción de datos usados para entrenar usando diferentes valores: 10%, 20%,...,90%.

      2. Grafique la evolución del error de entrenamiento y el de prueba contra el porcentaje de ejemplos de entrenamiento.

      3. Explique el comportamiento de las curvas.

    1. Comparación de modelos:

      1. Usando los datos de la NBA, entrene un modelo de clasificación Naïve Bayes y evalúelo usando validación cruzada con 10 pliegues (operador: X-Validation).

      2. Entrene un árbol de decisión y evalúelo usando validación cruzada con 10 pliegues (operador: X-Validation).

      3. Cuál de los dos modelos es mejor?

    1. Clasificación sensible al costo:

      1. Utilice el conjunto de datos credit-german.csv.

      2. Entrene un modelo Naïve Bayes usando validación cruzada (operador: X-Validation).

      3. Suponiendo que la clase Good es positiva, cuántos falsos positivos tiene el modelo resultante? cuántos falsos negativos? De acuerdo con el problem, qué tipo de error debería ser más costoso?

      4. Utilice MetaCost (operador: MetaCost) para sesgar el modelo de manera que se disminuya el número de errores costosos. Utilice una matriz de costo donde un tipo de error sea 10 veces más costoso que el otro.

      5. Evalue la matriz de confusión resultante y compárela con la original. Se cumplió el objetivo?