L'aprenentatge supervisat és una forma d'aprenentatge automàtic on el model s'entrena utilitzant dades de les quals ja es coneix la sortida correcta. Els problemes de classificació i regressió que hem vist fins ara són exemples d'aprenentatge supervisat. Tots dos fan prediccions basades en un procés d'aprenentatge on les dades d'entrada s'han etiquetat amb la sortida/classe correcta.
L'element de supervisió el fa en part un humà que etiqueta les entrades amb la classe/sortida correcta, però el seguiment de la precisió i l'ajustament de l'algoritme es realitza pel propi algorisme. Utilitzant les dades d'entrenament, l'algoritme comença a aprendre els punts en comú entre diferents peces de dades d'entrada (x) que comparteixen la mateixa etiqueta/sortida (y). Un cop ho hagi aconseguit, determinarà amb quina precisió ha actuat. Un cop s'ha realitzat cada cicle d'aprenentatge (batch), l'algoritme ajusta el model per minimitzar l'error, i això continua fins que l'algorisme funciona de manera òptima.
A continuació explorarem tres dels algorismes d'aprenentatge supervisat més utilitzats per a problemes de classificació i regressió: l'Arbre de decisió, el k-Nearest neighbours, i les Xarxes neuronals.
L'algorisme és un diagrama de flux en forma d'arbre amb una estructura jeràrquica. El punt de partida és l' arrel , que són tots els atributs de totes les dades que l'algorisme avaluarà. Durant el pas d'entrenament, l'algoritme d'aprenentatge automàtic determinarà la millor manera de dividir les dades, aquesta divisió correspondrà a una pregunta amb un resultat binari cert/fals. Des d'aquest punt de divisió inicial, les dades es ramifiquen en dues direccions, a altres nodes de decisió ; en cadascun d'ells, el model dividirà encara més les dades restants mitjançant una altra pregunta binària.
Durant l'entrenament, la màquina continuarà fraccionant les dades (conegut com a partició recursiva) fins que s'arribi a un node fulla/terminal . Un node fulla/terminal és el punt on les dades no es divideixen més i es pot fer una predicció.
min. 8:36
El diagrama següent és una representació visual de l'arbre de decisió que classifica un cos celeste com una lluna o un planeta:
Utilitzeu els dos conjunts de dades següents i utilitzeu l'arbre per determinar com els classificaria l'algorisme:
k-Nearest neighbour (KNN) és un altre algorisme d'aprenentatge supervisat que s'utilitza per fer prediccions per a problemes de classificació i regressió. Funciona fent prediccions per a mostres de dades noves en funció de la semblança que són a les mostres de dades utilitzades a la fase d'entrenament. La k a KNN és una variable que s'utilitza per determinar quants veïns s'han d'utilitzar per fer la predicció.
L'algoritme funciona trobant el nombre k de similituds més properes en les dades entre les dades no vistes (dades no utilitzades per entrenar el model) i les dades de les quals ha après el sistema en la fase d'entrenament. Per determinar les similituds, l'algorisme aplica una funció de distància. Això retorna un valor que indica la proximitat de les dades noves amb cada mostra de les dades d'entrenament.
Les xarxes neuronals són algorismes que imiten parts de com les cèl·lules del nostre cervell (neurones) col·laboren per prendre decisions.
Les xarxes neuronals són un marc per als algorismes d'aprenentatge automàtic. Podeu utilitzar xarxes neuronals per classificar dades i aplicar etiquetes, també poden predir resultats numèrics i, fins i tot, processar el llenguatge natural per entendre les ordres. Tot i que són extremadament útils, crear i entrenar una xarxa neuronal requereix molt de temps i processadors extremadament potents.