Com a humans, podem aprendre observant patrons en el món real. Per exemple, fins i tot sense saber els noms dels vehicles, podríeu mirar molts vehicles i agrupar-los en diferents tipus, en funció de característiques com la seva forma, mida o nombre de rodes. Els investigadors d'aprenentatge automàtic també volen que els ordinadors aprenguin a detectar semblances i diferències en les dades. Això es coneix com a aprenentatge no supervisat.
En l'aprenentatge no supervisat, l'algoritme observa les dades i descobreix patrons i enllaços. L'objectiu de l'aprenentatge no supervisat és trobar els punts de dades que són semblants i dir-li a l'usuari quines són les semblances.
Tots els projectes d'aprenentatge automàtic segueixen aquest mateix cicle:
Predir
Calcula l'error
Ajustar
L'aprenentatge no supervisat no és diferent. L'algoritme farà una predicció sobre els grups de les dades. A continuació, provarà les seves prediccions comprovant la semblança dels punts de dades de cada grup i ajusta els grups en funció d'això. L'algorisme recorrerà aquest cicle moltes vegades.
A diferència dels algorismes supervisats i no supervisats, l'aprenentatge per reforç pren decisions en temps real, aprenent dels seus errors i millorant constantment.
L'aprenentatge de reforç implica entrenar un programari, anomenat agent , per prendre decisions i reaccionar al seu entorn. En lloc de separar les fases d'entrenament i de prova, com en l'aprenentatge supervisat, un agent d'aprenentatge de reforç aprendrà mentre el proveu.
L'aprenentatge de reforç és molt semblant a com els nens aprenen a caminar. Intenten aixecar-se i després caure, la propera vegada s'ajusten una mica, intentant corregir els seus errors. Finalment, aprenen a posar-se dempeus i després caminar per l'experiència; L'aprenentatge de reforç funciona de la mateixa manera.