Discussion TD3

[15:20] Chretien Stephane : Ca fonctionne correctement ?

[15:20] mistral : oui

[15:21] Chretien Stephane : top !

[15:22] Chretien Stephane : n'hesitez pas a poser des questions (sur tous les TD)

[15:22] mistral : merci

[15:23] mistral : pour l'instant j'essaye de faire la CAH avec complete linkeage comme vous m'avez expliqué toute à l'heure à la fin du CM

[15:23] Chretien Stephane : d'accord !

[15:28] mistral : il peut nous être demandé de réaliser un dendrogramme en contrôle ? Si oui y a-t-il un moyen rapide pour réaliser la CAH qui prend beaucoup de temps ?

[15:31] Chretien Stephane : Oui, il peut y avoir une CAH a faire en effet, mais vous serez aidés dans les calculs !

[15:32] mistral : comment peut-on être aidé dans nos calculs ?

[15:33] Chretien Stephane : et bien je peux vous donner une partie des distances à calculer de manière à ce qu'il y en ait le moins possible à calculer soi-même

[15:34] mistral : et si on a un dendrogramme à faire, les groupes seront moins importants que 10 aussi, est-ce possible ?

[15:38] mistral : est-ce que vous pourriez m'expliquer avec un exemple la formule de score de validation croisée J(h) et la formule alternative pour construire un histogramme s'il vous plait?

[15:39] Chretien Stephane : oui !

[15:39] Chretien Stephane : je vais inclure cela dans le TD3 alors

[15:39] mistral : si vous activez votre micro ca serait plus simple je pense

[15:40] Chretien Stephane : cela risque de me prendre 45mn

[15:40] mistral : oui

[15:53] Chretien Stephane : Concernant la question 1 du TD3, il faut dessiner une ligne horizontale representant l'axe des "x", puis y placer les points -.57, .25, -.08 etc ...

[15:54] Chretien Stephane : on prend ensuite chacune des donnees et on dessine la fonction I_{x_i}(x)

[15:54] Chretien Stephane : puis on fait la somme de ces fonctions (graphiquement)

[15:54] Chretien Stephane : puis on divise tout par le nombre n de données

[16:01] Alice : Concernant le TD1, dans la correction que vous nous aviez donné, les histogrammes n'y figurent pas. Serait-il possible d'avoir la correction de ces histogrammes pour que l'on puisse vérifier notre travail svp ?

[16:03] Chretien Stephane : d'accord !

[16:03] Chretien Stephane : je fais ca vite

[16:03] Alice : Merci beaucoup

[16:07] Elise POLES : Quand vous parlez de la fonction  I_{x_i}(x) il s'agit de l'inertie ?

[16:08] Chretien Stephane : non non il s'agit de la fonction qui est egale a 1/h dans l'intervalle [x_i-h/2;x_i+h/2]

[16:08] Chretien Stephane : et zero en dehors de cet intervalle

[16:08] Elise POLES : très bien merci je n'avais pas compris

[16:08] Chretien Stephane : l'inertie, elle, est I_t pour l'inertie totale

[16:09] Chretien Stephane : I_e pour l'inter classe

[16:09] Chretien Stephane : I_a pour l'intraclasse

[16:11] Chretien Stephane : on appelle cette fonction I_{x_i}(x) car elle est proportionnelle à ce qu'on appelle "la fonction indicatrice de l'intervalle [x_i-h/2;x_i+h/2]"

[16:11] Chretien Stephane : "I" comme "Indicatrice"

[16:14] Elise POLES : mais du coup je n'ai pas compris comment on dessine la fonction  I_{x_i}(x) pour chacune des données

[16:15] beyza : Pour l'histogramme du td3 EX1, 1. , faut -il mettre en abscisse

[16:16] Chretien Stephane : @Elise: on se place en x_i, et on dessine un rectange entre x_i-h/2 et x_i+h/2 dont la hauteur est 1/h

[16:16] Chretien Stephane : et ca donne I_{x_i}

[16:16] beyza : Pour l'histogramme du td3 EX1, 1. , faut -il mettre en abscisse -1.15, -1,05 etc et en ordonnée par exemple pour x1 : [-1,75;-0,65]?

[16:17] Elise POLES : merci beaucoup ! c'est beaucoup plus simple que ce que je pensais ...

[16:17] Chretien Stephane : oui, c'est tout simple en fait ...

[16:18] Chretien Stephane : @Beyza: il faut mettre en abscisse -1.15, -1.05 etc

[16:19] Chretien Stephane : mais en ordonnée, il faut dessiner la fonction I_{x_1}(x), I_{x_2}(x), I_{x_3}(x) ... puis faire la somme

[16:19] Chretien Stephane : puis diviser le tout par n

[16:19] Chretien Stephane : n=10 données

[16:20] beyza : ah je comprends merci

[16:21] Elise POLES : il faut dessiner les rectangles en ordonnées ? enfait je ne suis pas sure d'avoir compris finalement

[16:21] Alice : Est-ce que c'est possible de faire un exemple avec la valeur de x1 svp ?

[16:21] Chretien Stephane : :-)

[16:22] Chretien Stephane : je vous affiche tout ca dans quelques secondes

[16:23] Chretien Stephane : vous voyez le dessin ?

[16:24] stofft : oui

[16:24] Alice : Oui

[16:24] mistral : oui

[16:24] Léa Abriel : oui

[16:24] Maurin : oui

[16:24] Chretien Stephane : \o/

[16:24] Alice : Dans cette question 1 on est d'accord que h vaut bien 1 ?

[16:25] Elise POLES : oui alice

[16:25] Alice : Merci

[16:25] Chretien Stephane : oui ! h=1

[16:26] Elise POLES : mais dans notre cas tous les rectangles se mélangent non ?

[16:26] Chretien Stephane : dans la question suivante h=.3

[16:26] Chretien Stephane : oui, tous les rectangles de superposent partiellement

[16:26] Elise POLES : aaaah très bien merci

[16:27] Chretien Stephane : puis on fait la somme !

[16:27] Chretien Stephane : (en rouge sur l'image)

[16:28] Chretien Stephane : lorsqu'on a 10 points, on fait la somme sur 10 fonctions rectangulaires

[16:29] Alice : Aaah d'accord donc pour chaque x, on va superposer les I(x) en hauteur si j'ai bien compris (en gros)

[16:29] mistral : oui c'est ce que j'ai compris alice

[16:30] Chretien Stephane : oui !

[16:30] Chretien Stephane : c'est completement ca !

[16:30] Alice : Et l'étape de diviser par n ? Je n'ai pas compris cette partie-là

[16:30] Elise POLES : nickel

[16:31] Elise POLES : ca change rien au dessin juste à l'échelle (donc ce qu'il y a noté dans l'axe des ordonnés est divisé par n, ici 10)

[16:31] Elise POLES : je crois

[16:31] Chretien Stephane : oui ! exactement !

[16:31] Alice : Ok parfait, merci beaucoup

[16:32] Chretien Stephane : et comme cela on obtient un histogramme de maniere differente des cours/TD precedents

[16:32] Chretien Stephane : mais cette nouvelle maniere de proceder est beaucoup plus pratique pour generaliser la notion d'histogramme

[16:33] Alice : Par contre petite question, lorsque l'on nous demande un histogramme de ce type dans un exercice, cela est toujours indiqué et la formule est-elle toujours donnée ?

[16:33] Chretien Stephane : Je vais faire une pause de 5mn pour aller chercher un chargeur car mon ordinateur est presque mort

[16:33] Alice : D'accord

[16:34] Chretien Stephane : Si on vous donne les bornes de l'histogramme, il faut faire la methode traditionnelle des TD precedents. Si on vous donne un h, il faut utiliser cette nouvelle methode ... Tout simple en fin de compte !

[16:35] Alice : Ok merci

[16:35] Alice : Mais la formule n'est pas nécessairement donnée du coup ?

[16:35] mistral : je ne pense pas non

[16:39] Elise POLES : ca prend 10 ans à faire par contre nan ?

[16:42] mistral : il l'a fait rapidement en début de cours mais quand on commence je pense que oui

[16:42] Welcome to <b>TD3 statistiques descriptives</b>!<br /><br />For help on using BigBlueButton see these (short) <a href="https://www.bigbluebutton.org/html5" target="_blank" target="_blank"><u>tutorial videos</u></a>.<br /><br />To join the audio bridge click the phone button.  Use a headset to avoid causing background noise for others.<br /><br />Ce serveur utilise <a href="https://docs.bigbluebutton.org/" target="_blank"><u>BigBlueButton</u></a>.

[16:44] Chretien Stephane : oui, quand on n'est pas entraine, c'est long ...

[16:44] Chretien Stephane : mais quand on en a fait 5, ca devient vraiment tres rapide !

[16:48] Chretien Stephane : On a fait le reste du TD3 en classe tout a l'heure et la réponse est dans les transparents de cours.

[16:48] Chretien Stephane : Est-ce que vous avez des questions sur le clustering ?

[16:49] mistral : on aura le corrigé dans la fin d'après-midi ?

[16:50] Elise POLES : pour le clustering j'ai juste pas compris quand est-ce qu'on devait s'arrêter de faire des groupes..

[16:51] Chretien Stephane : je viens de poster le corrigé

[16:51] Chretien Stephane : sur Moodle (et sur ma page web dans 5mn)

[16:51] mistral : merci !

[16:52] Chretien Stephane : @Elise: très bonne question !

[16:52] Chretien Stephane : Cela sera l'objet du debut du prochain cours

[16:53] mistral : de ce que j'ai compris on s'arrête jusqu' à ce qu'on ne puisse plus faire de "sous-groupes" pour en suite faire le dendrogramme

[16:53] Chretien Stephane : Pour le moment, on peut se dire qu'on s'arrête quand on commence a rassembler des clusters (sous-groupes) qui sont significativement plus distants que lors des étapes précédentes

[16:53] Elise POLES : d'accord très bien

[16:54] Elise POLES : mais du coup on est obligé de tester toutes les possibilités de groupes à chaque fois ?

[16:54] Chretien Stephane : @mistral: Oui ! on construit tout le dendrogramme d'abord en effet. J'aurais du dire on "coupe le dendrogramme" plutot que "on s'arrête"

[16:55] Chretien Stephane : @Elise: Oui !

[16:55] Chretien Stephane : c'est super long a priori, mais je vous donnerai des informations pour que vous n'ayez que quelques distances ou Inerties a calculer a chaque étape

[16:56] Chretien Stephane : dans la vraie vie, une fois qu'on a bien assimilé la méthode, on utilise 'hclust' sous R

[16:57] Alice : Du coup, comme je n'ai pas pu assister au CM comme le live ne marchait pas, je voulais savoir si les notions de clustering, d'inertie, etc. seraient au contrôle ?

[16:58] Chretien Stephane : oui, cela sera au controle. Je vais tourner une video du cours et la poster ce soir.

[16:59] Elise POLES : merci beaucoup

[16:59] Alice : Parfait, merci !

[16:59] Elise POLES : par contre il faut une autorisation d'accès pour la correction du TD3 sur moodl

[16:59] mistral : je n'ai pas bien compris à quoi sert le calcul de l'intertie qu'elle soit totale, inter-classe ou intra-classe

[16:59] Chretien Stephane : Je reste a votre dispositon pour repondre a toutes les questions par email egalement

[17:00] Chretien Stephane : @mistral: l'inertie totale c'est la variance de l'echantillon

[17:00] Chretien Stephane : l'inertie inter et intra classe sont deux type d'inertie qui prennent en compte le fait qu'on a  regroupe les donnees dans des clusters

[17:00] Chretien Stephane : *types

[17:01] Chretien Stephane : la méthode de Ward consiste a choisir la fusion qui donne l'inertie maximale

[17:01] mistral : et donc finalement la variance de l'échantillon correspond à quoi ?

[17:01] Chretien Stephane : c'est juste la formule de la variance que vous connaissez depuis le lycee

[17:02] Chretien Stephane : "moyenne des ecarts au carre a la moyenne"

[17:02] Elise POLES : du coup choisir l'inertie maximal c'est choisir la plus grande dispersion des valeurs ?

[17:02] Elise POLES : maximale

[17:03] mistral : c'est ce qui correspond à d(xi - xi')² ?

[17:04] Chretien Stephane : oui ! avec le choix d(x,y) = |x-y|

[17:04] Chretien Stephane : @Elise: oui, c'est cela !

[17:05] Chretien Stephane : on cherche a prendre des groupes les plus différents possibles de la moyenne de l'echantillon

[17:05] Elise POLES : d'accord

[17:05] Chretien Stephane : On a aussi la formule suivante:

[17:06] Chretien Stephane : Inertie totale = Inertie inter-classe + Inertie intra-classe

[17:07] Chretien Stephane : et donc prendre l'inertie inter-classe la plus grande est equivalent a prendre l'inertie intra-classe la plus petite, c'est a dire a regrouper le plus possible les valeurs autour de leur moyenne de groupe

[17:07] mistral : est-ce que l'inverse est vraie?

[17:07] Elise POLES : ok c'est plus clair comme ca

[17:07] Chretien Stephane : les deux points de vue inter/intra sont compléméntaires

[17:08] Chretien Stephane : Ils reviennent tres souvent en statistiques

[17:08] Chretien Stephane : en Analyse de la Variance par exempe

[17:08] Chretien Stephane : *exemple

[17:09] Chretien Stephane : Question: tout le monde pu rejoindre le BBB par le lien sur Moodle ?

[17:09] mistral : oui

[17:09] Alice : Oui

[17:09] Chretien Stephane : OK, donc ca, ca marche alors ...

[17:09] Tamatekou : Oui

[17:09] Chretien Stephane : ouf !

[17:10] mistral : est ce que prendre la + petite intertie inter-classe équivaut à prendre l'intertie intra-classe la plus grande ?

[17:10] Chretien Stephane : oui aussi, mais en general, on veut l'inertie intra-classe la plus petite, ce qui revient a prendre l'inertie inter-classe la plus grande

[17:13] Chretien Stephane : Ces methodes de CAH sont tres en vogues en machine learning ce moment, mais ont une longue histoire

[17:16] Elise POLES : j'avais une question quand à la formule de la fréquence cumulée...Quand on note F(a) = F(a_i) + ((a-a_i)/a_i+1-a_i) ... a_i et a_i+1 sont les bornes de la classe n'est pas ? mais du coup c'est quoi a ?

[17:17] Chretien Stephane : oui, les a_i sont les bornes de chaque intervalle

[17:18] Chretien Stephane : et F est une fonction d'une variable que j'aurais pu appeler "x", pour faire F(x), mais que j'ai appele "a", pour homogénéiser les notations

[17:18] Chretien Stephane : *appelée

[17:18] Elise POLES : oui bien sur mais dans le calcul on met quelle valeur ?

[17:20] Chretien Stephane : ah ... bien c'est une fonction "F(a)"

[17:21] Chretien Stephane : si je vous dis F(x) = x au carré, on n'a pas besoin de préciser la valeur de "x"

[17:21] Chretien Stephane : c'est exactement la meme chose ici: F(a) est une fonction de la variable a

[17:21] Chretien Stephane : on connaît les valeurs de F(a) pour a=a_1, a_2, etc

[17:22] Chretien Stephane : et cela permet de tracer F(a)

[17:22] Chretien Stephane : F(a_1) est la proportion des données dont la valeur est inférieure à a_1

[17:22] Elise POLES : très bien mais du coup on ne devra jamais utiliser la formule en elle même pour calculer la fréquence cumulée ?!

[17:23] Chretien Stephane : F(a_2) est la proportion des données dont la valeur est inférieure à a_2, etc

[17:23] Elise POLES : c'est ce que j'avais compris donc parfait :-)

[17:23] Chretien Stephane : pour dessiner F(a), il y a deux cas: le cas quantitatif continu et le cas quantitatif discret

[17:24] Chretien Stephane : dans le cas continu on relie les points (a_1,F(a_1)),  (a_2,F(a_2)),(a_3,F(a_3)), ...

[17:26] Chretien Stephane : dans le cas discret, la fonction reste constante et egale a F(a_1) dans [a_1,a_2), puis saute à F(a_2) et reste à cette valeur sur [a_2,a_3), puis saute à F(a_3) en a_3 etc

[17:26] Chretien Stephane : super !

[17:26] Chretien Stephane : On aura besoin de la fonction F(a) pour calculer les quantiles plus tard dans le cours

[17:27] Chretien Stephane : On a la relation F(a_i) = somme des fréquences cumulées jusqu'à a_i

[17:28] Chretien Stephane : donc les valeurs en F(a_i) sont simples a obtenir et c'est pour cela qu'on les mets dans le tableau "effectifs, fréquences, fréquences cumulées"

[17:29] Elise POLES : merci beaucoup ! c'est vraiment plus clair

[17:30] Chretien Stephane : essayer de faire les deux dernieres questions du dernier exo du TD3, elles permettent de s'entrainer sur le clustering et les relations entre clustering par inertie inter-classe maximale et intertie par distance entre groupes a fusionner minimale

[17:30] Chretien Stephane : *essayez

[17:31] Chretien Stephane : Enzo a tout programmé en R pour ceux qui sont interessés !

[17:32] mistral : où peut-on trouvé ce programme si on est intéressé ?

[17:32] Chretien Stephane : je peux le poster sur ma page et sur Moodle

[17:32] mistral : oui je veux bien s'il vous plaît !

[17:32] Chretien Stephane : (avec le copyright d'Enzo !)

[17:33] Chretien Stephane : parfait je fais ca !