Überwachtes vs. unüberwachtes maschinelles lernen: eine auswahlhilfe

31. Oktober 2023

Home
Maschinelles Lernen
Überwachtes vs. unüberwachtes maschinelles Lernen

Leiter des KI/ML-Kompetenzzentrums

Überwachtes und unüberwachtes Lernen bestimmen, wie ein ML-System für die Ausführung bestimmter Aufgaben trainiert wird. Der überwachte Lernprozess erfordert gekennzeichnete Trainingsdaten, die einen Kontext für diese Informationen liefern, während das unüberwachte Lernen auf rohen, nicht gekennzeichneten Datensätzen beruht.

Erfahren Sie, wie Experten für maschinelles Lernen die Stärken dieser Ansätze nutzen, um spezifische geschäftliche Herausforderungen besser zu bewältigen und Unternehmen bei der Entwicklung der bestgeeigneten ML-Modelle zu unterstützen.

Wie
beaufsichtigt
maschinelles lernen funktioniert

Überwachtes Lernen bedeutet, einen Algorithmus für maschinelles Lernen mit Daten zu trainieren, die Beschriftungen enthalten, die den Zielwert für jeden Datenpunkt angeben. Beschriftete Datensätze liefern klare Beispiele für Eingaben und ihre korrekten Ausgaben, so dass der Algorithmus die Beziehung zwischen ihnen verstehen und dieses Wissen auf zukünftige Fälle anwenden kann. Beispiele für Aufgaben des überwachten Lernens sind Klassifizierung, Regression und Erkennung.

Klassifizierung

Bei Klassifizierungsaufgaben werden Datenpunkte anhand ihrer Merkmale in bestimmte Kategorien eingeteilt.

Beispiel

Klassifizierung eingehender E-Mails in "Spam" und "nicht Spam".

Regression

Die Regression ermöglicht die Vorhersage von Ergebnissen auf der Grundlage historischer Daten durch die Ermittlung von Korrelationen zwischen abhängigen und unabhängigen Variablen.

Beispiel

Vorhersage des Gehaltsschecks eines neuen Kunden auf der Grundlage der Konversionshistorie und des Verhaltens der einzelnen Kunden im Online-Shop.

Erkennung

Erkennungsaufgaben beinhalten die Identifizierung von Objekten in einem Bild oder Video. Die Objekterkennung kann mehrere Objekte innerhalb eines Bildes erkennen.

Beispiel

Erkennung von Fahrzeugen, Straßenschildern oder Personen auf Straßenbildern; Erkennung von betroffenen Bereichen auf Röntgenbildern.

Überwachtes vs. unüberwachtes Lernen: Hauptunterschiede

Neben dem Hauptunterschied zwischen der Verwendung von markierten und nicht markierten Daten weisen die beiden Ansätze noch weitere signifikante Unterschiede auf, wie Martin Keen, Master Inventor bei IBM, betont.

Überwachtes Lernen

Unüberwachtes Lernen

Trainingsdaten

Der Algorithmus wird mit beschrifteten Datensätzen trainiert

Der Algorithmus wird mit nicht beschrifteten Datensätzen trainiert

Rückmeldung

Einfache Messung der Systemqualität während des Modelltrainings aufgrund der Verfügbarkeit von Referenzdaten

In den meisten Fällen erhalten Sie das Feedback der Benutzer erst, nachdem das System implementiert wurde.

Menschliches Engagement

Es erfordert einen direkten Eingriff in die Kennzeichnung der Daten

Erfordert keine manuelle Datenbeschriftung, aber die Modellschulung erfordert immer noch menschliche Aufsicht

Algorithmen

Zufällige Wälder, Support-Vektor-Maschinen, lineare Regression, NN, usw.

K-Means-Clustering, PCA, Autocodierer, Apriori, NN, usw.

Komplexität

Es ist weniger rechenaufwändig

Sie hat höhere Anforderungen an die Rechenleistung

Genauigkeit

Modelle mit überwachtem Lernen sind im Allgemeinen genauer

Unüberwachte Lernmodelle können weniger genau sein

Szenario

Sie kennen sowohl die Eingabe als auch die entsprechende Ausgabe

Sie arbeiten mit nicht klassifizierten Daten, und das Ergebnis ist unbekannt

Anwendungsfälle für überwachtes und unbeaufsichtigtes maschinelles Lernen

Die Besonderheiten des überwachten und des unüberwachten Lernens machen sie ideal für verschiedene Anwendungen und Geschäftsszenarien. Hier sind einige Beispiele.

Anwendungsfälle für überwachtes maschinelles Lernen

Sentiment-Analyse

Analyse der Nutzerinteraktionen auf sozialen Medien und Online-Plattformen, um ihre Einstellung zu Themen, Produkten oder Marken zu bewerten und Marketingkampagnen zu verfeinern.

Wettervorhersage

Verarbeitung von Satellitenbildern und Radarmessungen zur Erkennung von Wettermustern und zur Erstellung von Niederschlagskarten mit größerer Genauigkeit als bei statistischen Modellen.

Börsenprognose

Vorhersage von Aktienkursschwankungen und Marktvolatilität auf der Grundlage von Finanztrends und Unternehmensgewinnen zum Aufbau ausgewogenerer Portfolios bei gleichzeitiger Risikominimierung.

Schätzung von Immobilien

Berechnung des potenziellen Werts einer Immobilie auf der Grundlage ihrer Merkmale und ihres Standorts, um rentablere Investitionen zu gewährleisten.

Nachfrageprognose

Beobachtung der wirtschaftlichen Bedingungen, des saisonalen Kaufverhaltens und anderer Faktoren zur Vorhersage künftiger Verkaufstrends und zur Optimierung der Wiederauffüllung der Lagerbestände.

Gesichtserkennung

Erkennung und Isolierung von Personen in Bildern und Videos auf der Grundlage ihrer biometrischen Daten, um Multimedia-Inhalte zu klassifizieren und die Kennzeichnung zu automatisieren.

Spracherkennung

Verarbeitung von Audio-Eingaben und Interpretation natürlicher Sprache zum Betrieb von Chatbots, Moderation von Online-Inhalten und Ermöglichung von Echtzeit-Transkriptionen oder Übersetzungen.

Medizinische Bildgebung

Sondierung von Röntgenbildern und anderen Quellen, um Tumore, Verletzungen oder andere Erkrankungen zu erkennen und genaue Diagnosen zu stellen.

Anwendungsfälle für unüberwachtes maschinelles Lernen

Aufdeckung von Betrug

Identifizierung abnormaler Bedingungen und Merkmale, die zu potenziell schädlichen Szenarien führen können, wie z. B. Betrug, medizinische Probleme und Maschinenausfälle.

Gezieltes Marketing

Beobachtung von Nutzern in sozialen Medien, um ihre Interessen zu verstehen und sie mit maßgeschneiderten Anzeigen anzusprechen, was die Konversionsrate erhöht und den Umsatz steigert.

Motoren für Empfehlungen

Analyse des Kauf- und Surfverhaltens, der Bewertungen und Vorlieben der Nutzer von Online-Plattformen, um ihnen maßgeschneiderte Produkt- oder Inhaltsvorschläge zu unterbreiten und so das Cross-Selling zu erleichtern.

Rauschunterdrückung

Ausschneiden irrelevanter Variablen aus den Daten, um Rauschen aus visuellen Inhalten zu entfernen und die Bild- oder Videoqualität zu verbessern.

Gemischte Nutzung

Die Wahl zwischen überwachtem und unüberwachtem Modell hängt von den für diese Aufgabe verfügbaren Daten ab.

Kundensegmentierung

Gruppierung von Kunden in Buyer Personas für eine effiziente Marktforschung auf der Grundlage ihrer Verhaltensmuster, einschließlich früherer Käufe und Online-Interaktionen.

Nachrichten

Durchsuchen von Nachrichtenartikeln der wichtigsten Online-Medien, um den Inhalt in Unterkategorien zu gruppieren, die auf dem Land, dem Thema und anderen Kriterien basieren.

Spam-Erkennung

Beurteilung, ob es sich bei einer E-Mail um Spam handelt oder nicht, um unerwünschte oder schädliche Inhalte zu filtern und Phishing oder andere Arten von Betrug zu verhindern.

Erstellen Sie Ihre Lösung für maschinelles Lernen mit Itransition

Kontakt

ML-Algorithmen, die in überwachten und unüberwachten Modellen verwendet werden

Datenwissenschaftler und ML-Ingenieure können auf eine große Auswahl an Algorithmen zurückgreifen, um überwachte und unüberwachte Lernaufgaben durchzuführen. Dies sind einige der beliebtesten Algorithmen.

Algorithmen des überwachten Lernens

Entscheidungsbäume

Ein Entscheidungsbaum ist ein Klassifizierungsalgorithmus zur Abbildung der Verzweigungen möglicher Ergebnisse ausgehend von einem Ausgangspunkt. Die Berechnungen führen zu einem Diagramm, das leicht zu verstehen und zu erklären ist, aber an jedem Knotenpunkt der Verzweigung ein gewisses Maß an menschlicher Einsicht und Interpretation erfordert.

Schematitel: Ein Entscheidungsbaum
Datenquelle: devopedia.org - Entscheidungsbäume für maschinelles Lernen

Zufällige Wälder

Ein Random Forest kombiniert mehrere Entscheidungsbäume und bildet einen Mittelwert für die Wahrscheinlichkeit eines Ergebnisses. Er ist weniger einfach zu visualisieren als ein Entscheidungsbaum. Dennoch minimiert er die Überanpassung, wenn das Modell des maschinellen Lernens und die Daten so sehr aufeinander abgestimmt sind, dass das Modell bei anderen Datensätzen nicht mehr richtig funktioniert.

Schematitel: A random forest
Datenquelle: medium.com - Maschinelles Lernen. Entscheidungsbäume und Random-Forest-Klassifikatoren

Support-Vektor-Maschinen (SVM)

Der SVM-Ansatz kann je nach Anzahl der zu klassifizierenden Dateninstanzen als 2D- oder 3D-Graph dargestellt werden. Dann wird eine Grenze, die sogenannte Hyperebene, zwischen den verschiedenen Typen der identifizierten Daten konstruiert. Die Stützvektoren sind die Datenpunkte mit der größten Korrelation zwischen zwei verschiedenen Klassen und definieren diese Grenzen.

Schematitel: Support Vector Machine
Datenquelle: kdnuggets.com - Support Vector Machines: eine einfache Erklärung

Naive Bayes-Klassifikatoren

Ein Naive-Bayes-Klassifikator ist eine effiziente und skalierbare Routine für die Klassifizierung auf der Grundlage des Bayes-Theorems, einer Methode zur Berechnung von Wahrscheinlichkeiten aus historischen Daten. Dieser Algorithmus kann eine geschickte und wirtschaftliche Lösung für zuverlässig beschriftete Datensätze sein, was ihn zu einem guten ersten Ansatz für die Entwicklung einer überwachten Architektur macht.

Schematitel: Ein Naive-Bayes-Klassifikator, dargestellt als Bayes'sches Netzwerk
Datenquelle: Wikipedia - Naive Bayes Klassifikator

Neuronale Netze

Neuronale Netze sind robuste, mehrschichtige Architekturen, die in den meisten Fällen mit der als "Deep Learning" bekannten Untergruppe von ML verwandt sind. Sie können sehr große Datenmengen durchlaufen, um verborgene Zusammenhänge zu erkennen und die Daten erfolgreich zu klassifizieren. Dieser Ansatz ist jedoch zeitaufwändig und kann eine Menge Experimente erfordern.

Titel des Themas: Tiefes neuronales Netzwerk
Datenquelle: ibm.com - Neuronale Netzwerke

Lineare Regression

Die lineare Regression bildet die Korrelationen zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen ab. Ziel ist es, festzustellen, ob es eine maßgebliche Beziehung zwischen diesen beiden Faktoren gibt und ob diese Beziehung algorithmisch ausgedrückt werden kann, um zukünftige Ergebnisse vorherzusagen.

Schematitel: Eine lineare Regression
Datenquelle: scribbr.com - Eine Schritt-für-Schritt-Anleitung zur linearen Regression in R

Logistische Regression

Ähnlich wie bei der linearen Regression werden bei der logistischen Regression Beziehungen zwischen Eingangsdaten und Ausgangsdaten ermittelt. Sie wird jedoch nicht auf kontinuierliche, messbare Variablen angewandt, sondern wenn die Ausgangsvariable binär ist (d. h. sie kann das eine oder das andere sein), wodurch eine kompliziertere Art von Diagramm, das sogenannte Sigmoid, entsteht.

Titel des Schemas: Logistische Regression
Datenquelle: realpython.com - Logistische Regression in Python

Algorithmen für unüberwachtes Lernen

K-Means-Clustering

K-Means ist ein Clustering-Algorithmus, der Datenpunkte "K Gruppen" zuordnet. Der K-Wert ist die Menge der identifizierbaren Cluster in einem Datensatz auf der Grundlage ihrer Ähnlichkeit. Ein höherer K-Wert bedeutet, dass mehr Gruppen identifiziert werden, was zu vielfältigeren Ergebnissen und abgeleiteten Beziehungen zwischen den Datenpunkten führt.

Schematitel: K-Means-Clustering
Datenquelle: realpython.com - K-Means Clustering in Python: A Practical Guide

Hierarchisches Clustering

Hierarchisches Clustering kann Datenpunkte auf der Grundlage ihrer Ähnlichkeit (agglomeratives Clustering) oder ihrer Unterschiede (divisives Clustering) in Untergruppen einteilen. Das agglomerative Clustering kann je nach der Methode zur Messung der Ähnlichkeit weiter in einfaches, vollständiges, durchschnittliches und Ward'sches Clustering unterteilt werden.

Titel des Themas: Hierarchische Methoden im unüberwachten Lernen
Datenquelle: devopedia.org - towardsdatascience.com-Hierarchical Agglomerative Clustering Algorithm Example In Python

Hauptkomponentenanalyse (PCA)

PCA ist ein Algorithmus zur Dimensionalitätsreduzierung, der die Palette der Merkmale in großen Datensätzen auf die relevantesten einschränkt, Redundanzen minimiert und die Daten leichter visualisierbar macht. Bei dieser Methode wird jeder Datenpunkt auf einige wenige Hauptkomponenten projiziert, die als Vektoren dargestellt werden und den wesentlichen Variablen entsprechen.

Schematitel: Hauptkomponentenanalyse
Datenquelle: Wikipedia - Hauptkomponentenanalyse

Apriori

Apriori ist ein beliebter Algorithmus für Assoziationsregeln, der häufig im relationalen Data Mining eingesetzt wird, um Untergruppen korrelierter Elemente in größeren Datensätzen zu erkennen und allgemeine Trends hervorzuheben. Er beginnt mit der Identifizierung einzelner Datenpunkte und geht dann dazu über, andere zu untersuchen, die mit dem ersten durch eine Beziehung verbunden sind.

Titel des Themas: Assoziation über Apriori-Algorithmus
Datenquelle: towardsdatascience.com - Apriori Algorithm for Association Rule Learning. Wie man eindeutige Verbindungen zwischen Transaktionen findet, 2021

Vor- und Nachteile von überwachten und unüberwachten Ansätzen

Überwachtes Lernen

Unüberwachtes Lernen

Vorteile

Bessere Modellzuverlässigkeit und -konsistenz durch klar definierte Merkmale und Bezeichnungen Mehr Kontrolle über die Bandbreite der Klassen in den Trainingsdaten Bessere Erklärbarkeit und Nachvollziehbarkeit, da das Modell auf einer Reihe von vordefinierten Spuren aufgebaut ist

Keine Notwendigkeit für markierte Daten und menschliches Eingreifen, was zu weniger teurem Training führt Entdeckung neuer oder aufkommender Trends und Beziehungen, die vorher nicht erkannt werden konnten Fähigkeit, sowohl Muster als auch Ausreißer zu erkennen, was eine effiziente Erkennung von Anomalien ermöglicht

Herausforderungen

Größere Anforderungen an die Vorverarbeitung wegen der langwierigen menschengerechten Beschriftung Notwendigkeit mehrerer Trainingsiterationen mit neuen Daten zur Feinabstimmung und Aktualisierung des Modells Vorhandensein von unterrepräsentierten Daten (Anomalien), wenn man einen Algorithmus mit beschrifteten Datenpunkten trainiert

Überlegene Rechenressourcen sind erforderlich, um Rohdaten zu sichten und verborgene Muster aufzudecken Mangel an Anleitung und Feedback während der Modellschulung Black-Box-Charakter, der die Interpretierbarkeit einschränkt und zu rechtlichen Bedenken führen kann

Andere Ansätze des maschinellen Lernens

Semi-überwachtes Lernen

Ein hybrider Ansatz, der beschriftete und unbeschriftete Daten kombiniert. Der Algorithmus wird mit einer kleinen Menge an von Menschen beschrifteten Datenpunkten als Beispielen trainiert, die das System "studieren" kann, um den Rest des Trainingssatzes selbstständig zu beschriften.

Profis

Teilweise automatisierte und daher schnellere Beschriftung im Vergleich zum überwachten Lernen

Nachteile

Potenzielle Genauigkeitsprobleme, wenn die markierten Daten nicht ausreichend repräsentativ für den gesamten Datensatz sind

Beispiel

Training eines medizinischen Bildgebungssystems mit einem Teil der markierten Beispiele zur genaueren Erkennung von Tumoren

Verstärkendes Lernen

Ein Versuch-und-Irrtum-Ansatz, bei dem ein ML-System lernt, eine Aufgabe zu bewältigen, indem es sie in mehreren Iterationen durchläuft und Belohnungen für richtige Aktionen und Strafen für Fehler erhält, bis es erfolgreich ist. Der Algorithmus erzeugt mehrere Ausgaben und wählt die Aktionen aus, die das beste Ergebnis gewährleisten.

Profis

Keine Vorverarbeitung der Daten oder Vorkenntnisse über das Betriebsszenario erforderlich

Nachteile

Mangel an tatsächlichem Kontextverständnis über die Aufgabe hinaus, für die das System trainiert wurde

Beispiel

Schulung von autonomen Fahrzeugen oder Robotern, um sich zu bewegen und richtig mit der Umgebung zu interagieren

How to choose the best-fitted ML approach?

Wie wählt man den am besten geeigneten ML-Ansatz?

Berücksichtigen Sie die folgenden Faktoren, um ein geeignetes Paradigma des maschinellen Lernens für Ihr Szenario und die damit verbundenen Herausforderungen auszuwählen:

Ihr Ziel
Wenn Sie nach einer Antwort auf bekannte Herausforderungen oder Einblicken in zukünftige Ergebnisse suchen, sollten Sie sich für überwachtes Lernen entscheiden. Wenn Sie große Mengen von Rohdaten untersuchen wollen, um Probleme oder potenzielle Chancen zu erkennen, die Sie nicht kennen, sollten Sie sich auf unüberwachtes Lernen verlassen.
Ihre Daten
Für Unternehmen, die über genügend beschriftete Daten und das Fachwissen zur Verwaltung des Beschriftungsprozesses verfügen, ist das überwachte Lernen attraktiver. Wenn diese Voraussetzungen nicht gegeben sind, kann unüberwachtes Lernen eine bessere Option sein.

Lassen Sie unser Team für maschinelles Lernen sich um Ihr Projekt kümmern

Kontakt aufnehmen

Warum nicht beides?

Überwachte und unüberwachte Lernparadigmen haben viel zu bieten, wenn sie als komplementäre und nicht als gegensätzliche Technologien in einer Vielzahl von ML-Anwendungsfällen eingesetzt werden. Unüberwachtes Lernen kann profitable Trends aus ansonsten unübersichtlichen Datensätzen aufdecken, während überwachtes Lernen als verfeinernde Verarbeitungsebene dient, um die mit unüberwachten Techniken gewonnenen Erkenntnisse zu verfeinern.

Um das Beste aus beiden Ansätzen herauszuholen, sollten Sie sich auf das Fachwissen von Itransition in den Bereichen künstliche Intelligenz und Beratung für maschinelles Lernen verlassen.

Dienst

ML-Dienste und -Lösungen von zertifizierten Experten für maschinelles Lernen

Maschinelles Lernen im Bildungswesen:
10 Anwendungsfälle, Beispiele und Vorteile

Einblicke

Maschinelles Lernen im Bildungswesen: 10 Anwendungsfälle, Beispiele und Vorteile

Maschinelles Lernen in der Fertigung:
wichtige anwendungen, beispiele und leitlinien für die anwendung

Einblicke

Maschinelles Lernen in der Fertigung: wichtige anwendungen, beispiele und leitlinien für die anwendung

Mehr über Dienstleistungen zum maschinellen Lernen

Dienstleistungen

Branchen

Anwendungsfälle

Überwachtes vs. unüberwachtes maschinelles lernen: eine auswahlhilfe

Wie beaufsichtigtunüberwachtbeaufsichtigt maschinelles lernen funktioniert

Klassifizierung

Beispiel

Regression

Beispiel

Erkennung

Beispiel

Überwachtes vs. unüberwachtes Lernen: Hauptunterschiede

Überwachtes Lernen

Unüberwachtes Lernen

Trainingsdaten

Trainingsdaten

Rückmeldung

Rückmeldung

Menschliches Engagement

Menschliches Engagement

Algorithmen

Algorithmen

Komplexität

Komplexität

Genauigkeit

Genauigkeit

Szenario

Szenario

Anwendungsfälle für überwachtes und unbeaufsichtigtes maschinelles Lernen

Anwendungsfälle für überwachtes maschinelles Lernen

Sentiment-Analyse

Wettervorhersage

Börsenprognose

Schätzung von Immobilien

Nachfrageprognose

Gesichtserkennung

Spracherkennung

Medizinische Bildgebung

Anwendungsfälle für unüberwachtes maschinelles Lernen

Aufdeckung von Betrug

Gezieltes Marketing

Motoren für Empfehlungen

Rauschunterdrückung

Gemischte Nutzung

Kundensegmentierung

Nachrichten

Spam-Erkennung

Erstellen Sie Ihre Lösung für maschinelles Lernen mit Itransition

ML-Algorithmen, die in überwachten und unüberwachten Modellen verwendet werden

Algorithmen des überwachten Lernens

Entscheidungsbäume

Zufällige Wälder

Support-Vektor-Maschinen (SVM)

Naive Bayes-Klassifikatoren

Neuronale Netze

Lineare Regression

Logistische Regression

Algorithmen für unüberwachtes Lernen

K-Means-Clustering

Hierarchisches Clustering

Hauptkomponentenanalyse (PCA)

Apriori

Vor- und Nachteile von überwachten und unüberwachten Ansätzen

Überwachtes Lernen

Unüberwachtes Lernen

Vorteile

Vorteile

Herausforderungen

Herausforderungen

Andere Ansätze des maschinellen Lernens

Semi-überwachtes Lernen

Profis

Nachteile

Beispiel

Verstärkendes Lernen

Profis

Nachteile

Beispiel

Wie wählt man den am besten geeigneten ML-Ansatz?

Lassen Sie unser Team für maschinelles Lernen sich um Ihr Projekt kümmern

Warum nicht beides?

ML-Dienste und -Lösungen von zertifizierten Experten für maschinelles Lernen

Maschinelles Lernen im Bildungswesen: 10 Anwendungsfälle, Beispiele und Vorteile

Wie
beaufsichtigt
maschinelles lernen funktioniert