L'objectif de l'exercice est de montrer le pouvoir d'expression des arbres de décision en montrant que toute fonction Booléenne de n variables peut être représentée par un arbre de décision. Notez que cet arbre peut être grand.
L'objectif de l'exercice est de montrer que les arbres de décision permettent de construire des règles de classement complexes en utilisant des droites parallèles aux axes alors qu'un séparateur linéaire est constitué d'une seule droite mais non nécessairement parallèle à un axe.
Cet exercice est une vérification de compréhension de ce qu'est un arbre de décision et comment un arbre classe des exemples.
Cet exercice a pour objectif de bien faire comprendre l'importance du choix de l'ordre de sélection des attributs dans la construction d'un arbre de décision et donc pourquoi un algorithme de construction doit choisir un ordre.
Cet exercice a pour objectif de faire comprendre, par l'exemple, les fonctions de degré de mélange et d'introduire la fonction gain.
On peut décorer l'arbre avec les effectifs à chacune des positions de l'arbre. Pour la racine, on a la répartion (100,100). Pour le noeud 1 (le premier fils de la racine) on a la répartition (97,38) et pour le noeud 2 (le deuxième fils de la racine) on a la répartition (3,62). Pour le noeud 1.1 (le premier fils du premier fils de la racine) on a la répartition (6,37) et pour le noeud 1.2 (le deuxième fils du premier fils de la racine) on a la répartition (91,1).
Cet exercice a pour objectif d'appliquer l'algorithme d'apprentissage d'arbres de décision.
L'objectif est de montrer le problème des attributs discrets avec un grand nombre de valeurs.
L'objectif est de comprendre les avantages et inconvénients d'un algorithme glouton comme l'agorithme d'apprentissage des arbres de décision.
La procédure majoritaire associe à tout exemple la classe 0. Son erreur apparente est de 30%
L'objectif de l'exercice est d'introduire la méthode de gestion des valeurs manquantes de C4.5 après avoir vu deux méthodes de pré-traitement.
L'exercice présente la méthode d'élagage utilisée dans C4.5. Contrairement à la méthode présentée dans l'ouvrage qui utilise un ensemble test ou la validation croisée, la méthode présentée ici se base sur des estimations statistiques pessimistes de l'erreur réelle dans chacun des noeuds de l'arbre. L'exercice est un exercice de compréhension et il suffit d'appliquer les formules présentées. Si vous utilisez C4.5 ou une variante, il faut retenir que le coefficient CF mesure une confiance dans l'estimation et que CF influe sur la force de l'élagage. Par défaut CF est égal à 25%, et plus CF est petit plus l'élagage est fort : CF voisin de 0 conduit à élaguer fortement jusqu'à obtenir un arbre réduit à une feuille qui correspond à la règle majoritaire, CF voisin de 100% conduit à ne pas élaguer (ou très peu).
L'exercice est une application de l'algorithme de vote de majorité pondéré. Les trois experts commencent avec des poids égaux à 1 ce que nous notons a=b=c=d=1.
Après cette présentation d'exemple, D a un poids de 1 (il ne se trompe jamais !). A et D ont des poids faibles car ils ont des prédictions indépendantes des données.
Dans les formules utilisées, il suffit de remplacer les nombres d'exemples (et les proportions) par des sommes de poids (et les proportions correspondantes). Notez que pour les valeurs manquantes, nous avions déja signalé qu'on pouvait remplacer des comptes entiers par des comptes réels.