Ansätze des Machine Learnings
Vielleicht hast du auch schon mal von den Begriffen Supervised Learning und Unsupervised Learning gehört, welche Ansätze des Machine Learnings sind. In diesem Beitrag wollen wir Euch die beiden kurz näher bringen und Unterschiede sowie Vor- und Nachteile der Technologien aufzeigen.
Was ist Supervised Learning?
Übersetzt bedeutet Supervised Learning überwachtes Lernen. Dabei handelt es sich um einen von drei Ansätzen im Rahmen des Machine Learnings. Einen weiteren Ansatz definiert das Unsupervised Learning, welches wir später in diesem Beitrag noch genauer erklären. Beide Methoden werden unter dem Begriff Machine Learning zusammengefasst. Der dritte angesprochene Ansatz im Rahmen des Machine Learnings bezieht sich auf das sogenannte Reinforcement Learning.
Beim Supervised Learning handelt es sich um eine angeleitete Methode, bei der es darum geht Trainingsdaten für den Aufbau des Modells bereitzustellen. Diese Trainingsdaten beinhalten eine annotierte Gruppenzugehörigkeit. Neue Daten werden in Gruppen eingeordnet, wobei eine statistische Prognose als Basis genutzt wird.
Passend zum Thema: Wie funktioniert Machine Learning?
Wie wird das Supervised Learning angewendet?
Ziel beim Supervised Learning ist es die von den Nutzern vorgegebenen Daten einer Gruppierung beziehungsweise einer Klasse zuzuordnen, wenn der Datensatz nicht manuell oder händisch bewertet werden kann. Zum Beispiel im Rahmen der Kreditbewilligung, wo sich die Entscheidung nach der Bonität oder der Kredithöhe richtet. Die Kernaufgabe des Supervised Learnings besteht darin mit Hilfe von Beispieldaten ein Modell aufzubauen, um die Zuordnung selbstständig abzuschließen.
Was ist Unsupervised Learning?
Übersetzt bedeutet der Begriff überwachtes Lernen und definiert ein datengetriebenes Verfahren, welches in den vorhandenen Daten ein festes Muster ermittelt. Im Gegensatz zum Supervised Learning ist eine Datengruppierung nicht initial vorhanden. Ziel ist es, diese Gruppierung herzustellen.
Wie wird das Unsupervised Learning angewendet?
Bei dieser Methode geht es darum, die unbekannten Beziehungen und Strukturen in den Daten zu ermitteln. Die Aufteilung und Gruppierung der einzelnen Daten ist dabei bekannt. Die bei dieser Methode verwendeten Algorithmen müssen selbstständig die sogenannten Cluster, sprich die Strukturen ausfindig machen können.
Das Ziel besteht darin ein Modell aufzubauen, mit welchem sich die Daten den existenten Clustern zuordnen lassen. Die Art und die Anzahl dieser Strukturen ändert sich mit dem vorhandenen Datenaufkommens des Corpus. Dieses Verfahren schätzt neue Daten nicht einfach nur, sondern integriert diese in ein eigenes Modell. Anwender benötigen für den stabilen Modellaufbau in der Regel Unmengen an Daten. Damit ist diese Methode nicht für alle Anwendungsfälle geeignet.
Supervised Learning vs. Unsupervised Learning: Die Unterschiede
Im Gegensatz zum überwachten Lernen weiß das System des unüberwachten Lernens nicht, was es erkennen soll. Die Datenaufteilung in Cluster findet zwar statt, allerdings weiß das System nicht, unter welches Label diese Daten fallen.
Beispiel
Nehmen wir die Unterscheidung von Hunden und Katzen als Beispiel: Wenn das System Bilder von Tieren verarbeiten soll, werden alle Bilder kategorisiert, die nach Hund oder Katze aussehen. Die Bilder werden daraufhin in Gruppen eingeteilt, ohne dass benannt wird, welches Bild davon einen Hund und welches eine Katze darstellt. Dies hat den einfachen Hintergrund, dass die Definition durch den Anwender noch nicht stattgefunden hat. Deshalb wird diese Methode immer dann eingesetzt, wenn der Nutzer die Daten noch nicht kennt und somit auch nicht in der Lage ist, Vorgaben zu machen. Beim Supervised Learning sieht die Sache anders aus, da der Nutzer die ground truth, also die Grundwahrheit bereits kennt.
Die Vor- und Nachteile der beiden Verfahren
Vorteil von Supervised Learning
Die im Supervised Learning angewandten Verfahren lassen sich aufgrund ihrer strukturierten Eigenschaften gut nachvollziehen. Nutzer haben die Möglichkeit verschiedene Methoden gegenüberzustellen, diese zu parametrisieren und die optimale Lösung für den Anwendungsfall zu finden. Damit gestaltet sich die Nachvolziehbarkeit deutlich einfacher, als es bei den Methoden im Unsupervised Learning der Fall ist.
Nachteil von Supervised Learning
Dies bringt jedoch den Nachteil mit sich, dass sich diese Methode nur mit einem erhöhten manuellen Aufwand nutzen lässt.
Vorteil Unsupervised Learning
Damit kristallisiert sich auch der Vorteil des Unsupervised Learnings heraus: Die Modellerstellung erfolgt teilweise vollautomatisiert. Damit lassen sich gute Prognosen in Bezug auf neue Daten bestimmen. Auch das Erstellen von ganz neuen Inhalten ist damit möglich.
Nachteile von Unsupervised Learning
Der Nachteil basiert auf dem sogenannten Overfitting und Underfitting. Ersteres beschreibt die nicht mehr korrekte Zuordnung von neuen, unbekannten Daten. Letzteres beschreibt den Fall, in dem zu wenige Daten zur Verfügung stehen, was eine ungenaue Klassifizierung mit sich bringt und zu schlechten Prognoseergebnissen führen kann.