Eine Sammlung von Begriffen und Definitionen, welche wichtig sind, wenn wir uns mit ML-Algorithmen auseinandersetzen.
Es gibt unterschiedliche Arten von Machine Learning Algorithmen, jedoch kann man sie in unterschiedliche Kategorien unterteilen nach ihrem Zweck, wobei die wichtigsten Kategorien die Folgenden sind:
Supervised Learning
Unsupervised Learning
Semi-supervised Learning
Reinforcement Learning
Supervised Learning (auf deutsch "überwachtes Lernen") ist ein Teilgebiet des maschinellen Lernens. Die Ergebnisse sind durch Naturgesetze oder Expertenwissen bekannt und werden benutzt, um das System anzulernen. Ein Lernalgorithmus versucht also, eine Hypothese zu finden, die möglichst zielsichere Voraussagen trifft. Die Methode richtet sich also nach einer im Vorhinein festgelegten zu lernenden Ausgabe, deren Ergebnisse bekannt sind. Die Ergebnisse des Lernprozesses können mit den bekannten, richtigen Ergebnissen verglichen, also „überwacht“, werden.
Ein typischer Anwendungsfall wäre die Klassifizierung, wenn beispielsweise eine Sortiermaschine automatisch die Äpfel einer Ernte verschiedenen Güteklassen zuordnen soll. Die Ergebnisse werden beim Supervised Learning dazu verwendet, ein System anzulernen.
Nearest Neighbour
Naive Bayes
Decision Trees
Linear Regression
Support Vector Machines
Neural Networks
Unsupervised Learning (auf deutsch "unüberwachtes Lernen") bezeichnet maschinelles Lernen ohne im Voraus bekannte Zielwerte sowie ohne Belohnung durch die Umwelt. Die (Lern-)Maschine versucht, in den Eingabedaten Muster zu erkennen, die vom strukturlosen Rauschen abweichen.
Der Computer kann unter Umständen uns was beibringen nachdem er die Muster in den Daten erkannt hat.
k-means clustering
Teilüberwachtes Lernen (englisch „Semi-Supervised Learning“) stellt eine Mischung aus Überwachtem und Unüberwachtem Lernen dar. Es wird im Wesentlichen für die gleichen Zwecke eingesetzt wie das Supervised Machine Learning. Im Gegensatz zum Überwachten Lernen sind beim Teilüberwachten Lernen jedoch nur für einen Teil der Basisdaten die dazugehörigen Ergebnisse bekannt. Um mit ausreichend großen Datensätzen arbeiten zu können, werden im Teilüberwachten Lernen deshalb auch Basisdaten verwendet, bei denen die Zielvariable noch nicht vorhanden ist.
Reinforcement Learning (auf deutsch "Bestärkendes Lernen") steht für eine Reihe von methoden des maschinellen Lernens, bei denen ein Agent selbständig eine Strategie erlernt, um erhaltene Belohnungen zu maximieren.
Daten, die aus einer Reihe von Trainingsbeispielen bestehen, wobei jeder Datenpunkt ein Paar ist, welches aus einem Eingangs- und einem gewünschten Ausgangswert besteht.
Das Ziel ist es, diskrete Werte zu bestimme, d.h. man möchte Objekte oder Situation in Klassen unterteilen
Das Ziel ist die Vorhersage kontinuierlicher Werte.
Man spricht von Underfitting, wenn das model den zugrundeliegenden Trend der Daten nicht erfassen kann, d. h. wenn es nur bei den Trainingsdaten gut, bei den Testdaten aber schlecht abschneidet. Dies geschieht z.B. wenn wir wenige Daten haben, um ein genaues model zu erstellen.
Ein model wird als überangepasst (= overfitted) bezeichnet, wenn das model bei Testdaten keine genauen Vorhersagen macht. Wenn ein model mit zu vielen Daten trainiert wird, beginnt es, aus dem Rauschen und den ungenauen Dateneinträgen in unserem Datensatz, zu lernen.