Maschinelles Lernen für Anomalie-Erkennung: ein technischer Überblick

9. Februar 2023

Home
Maschinelles Lernen
Erkennung von Anomalien

Die ML-gestützte Anomalie-erkennung stützt sich auf Algorithmen des maschinellen Lernens, um Merkmale, Ereignisse oder Bedingungen zu erkennen, die von der Norm abweichen und Hinweise auf potenziell schädliche Szenarien wie Betrug, Cyberangriffe, medizinische Probleme und strukturelle oder funktionale Mängel sein könnten.

ML-fähige Anwendungen zur Erkennung von Anomalien unterscheiden sich von herkömmlicher Software in Bezug auf die Erkennungstechnik:

Regelbasierte Anomalieerkennung

Traditionelle Lösungen zur Erkennung von Anomalien lösen normalerweise eine Antwort aus, wenn eine oder mehrere vordefinierte Bedingungen verletzt werden.

Beispiel: Eine Kreditkartenzahlung, die einen bestimmten Schwellenwert überschreitet.

ML-basierte Anomalieerkennung

ML-Algorithmen sind darauf trainiert, durch die Verarbeitung großer Datensätze selbstständig wiederkehrende Muster oder Cluster zwischen Schlüsselvariablen und Datenpunkten zu entdecken. Sobald ein ML-System auf Daten stößt, die nicht in ein bestehendes Muster passen, hat es möglicherweise eine Anomalie erkannt.

Beispiel: Eine ungewöhnliche Kreditkartenzahlung, die vom typischen Kaufverhalten ihres Inhabers abweicht.

Nach Technavio's 2022 Anomaly Detection Market Forecast and Analysis stellt Machine-Learning-Beratung einen der wichtigsten Technologie- und Geschäftstrends im Markt für Anomalie-Erkennung dar, der von 2021 bis 2026 mit einer maximalen CAGR von 15,08% um schätzungsweise 4,23 Mrd. $ wachsen wird.

Marktstatistiken zur Erkennung von Anomalien

Datenquelle: Technavio - Anomaly Detection Markt nach Einsatz und Geographie. Vorhersage und Analyse 2022-2026

Wachstum der Marktgröße (2021-2026)

Schätzung der jährlichen Wachstumsrate für 2022

des Wachstums wird aus Nordamerika kommen

CAGR mit zunehmender Eigendynamik

Wichtige Markttrends
KI & maschinelles-lernen
Internet der Dinge
Datenanalytik

Arten von Anomalien

Anomalien lassen sich je nach ihrer Beziehung zur Mehrheit der betrachteten Daten in drei Hauptarchetypen einteilen.

Punktuelle Anomalien

Ein einzelner Datenpunkt nimmt einen abnormalen Wert im Vergleich zum gemeinsamen Wertebereich im Datensatz an.

Beispiel: Eine verdächtig hohe Kartenzahlung oder Bankeinzahlung unter Berücksichtigung der bisherigen Transaktionen des Kontoinhabers.

Kontextabhängige Anomalien

Diese Art von Anomalie ist kontextspezifisch, da es sich um einen Datenpunkt handelt, der im Vergleich zu den meisten Datenpunkten desselben Szenarios anomal ist (typischerweise aus zeitlicher Sicht).

Beispiel: Eine Spitze im Netzwerkverkehr über Nacht oder ein sprunghaftes Umsatzwachstum außerhalb der Urlaubssaison.

Kollektive Anomalien

Dabei handelt es sich um Teilmengen von Datenpunkten, die für sich genommen vielleicht nicht anomal erscheinen, aber Verdacht erregen, wenn sie zusammen auftreten.

Beispiel: Mehrere Anmeldeversuche vom selben Konto aus oder eine Reihe von ungewöhnlich teuren Einkäufen.

11 Anwendungsfälle für ML-basierte Anomalieerkennung nach Branchen

Werfen wir einen Blick auf einige reale Anwendungsfälle der Datenwissenschaft und des maschinellen Lernens für die Erkennung von Anomalien in wichtigen Industrieszenarien.

Finanzen und Bankwesen

1 Manipulation des Aktienmarktes

Auf maschinellem Lernen basierende Systeme zur Erkennung von Anomalien in Verbindung mit Finanz-Predictive-Analytics-Tools werden häufig von großen Finanzakteuren wie Nasdaq eingesetzt. Diese Ausprägungen des Maschinellen Lernens im Aktienmarkt können anomale Handelsmuster von Brokern leicht erkennen, um Betrug (einschließlich Churning, Spoofing und Wash Trade) zu verhindern und die Einhaltung strenger Marktvorschriften zu gewährleisten.

2 Geldwäscherei

Lösungen zur Erkennung von Anomalien durch maschinelles Lernen können ungewöhnliche Transaktionen verdächtiger Organisationen erkennen und melden, z. B. eine kleine Gruppe neu gegründeter Unternehmen, die in Steuerparadiesen ansässig sind und trotz einer begrenzten Zahl von Kunden große Geldbeträge austauschen.

3 Steuerbetrug

Systeme, die auf maschinellem Lernen basieren, können die Hauptbücher der Unternehmen untersuchen und Anzeichen von Steuerbetrug erkennen. Zu den verdächtigen Anomalien zählen unter anderem uneinheitliche Einzelabzüge, mehrfache Steuererstattungen, die von derselben IP-Adresse aus eingereicht wurden, und erhebliche Veränderungen bei den Unternehmensumsätzen.

IT-Sektor

4 Cyber-Angriff

Hacker können versuchen, in Unternehmenssysteme oder -netzwerke einzudringen, um Vermögenswerte und Daten zu stehlen. Ein auf maschinelles Lernen gestütztes Intrusion Detection System (IDS) mit Network Behavior Anomaly Detection (NBAD) kann solche Versuche verhindern, indem es jedes atypische Ereignis verfolgt, wie z. B. einen koordinierten Zugriff über mehrere Konten, der eine Spitze im Datenverkehrsvolumen und in der Bandbreite hervorruft, und es als potenziellen Cyberangriff kennzeichnet.

5 Vorbereitung der Daten

Bei der Ausbildung eines Algorithmus zur Erkennung von Anomalien ist es wichtig, hochwertige Trainingsdaten für die Verarbeitung vorzubereiten. Ein ML-basiertes System zur Erkennung von Anomalien kann das Gegenteil bewirken, indem es inkonsistente oder beschädigte Daten aufspürt und so die Datenbereinigung erleichtert.

Gesundheitswesen

6 Medizinische Diagnostik

Systeme des maschinellen Lernens können radiologische Bilder, Körperscans und andere medizinische Quellen untersuchen, um Anomalien des Patientenzustands schnell zu erkennen, die Anzeichen für bevorstehende gesundheitliche Komplikationen sein könnten (einschließlich Gehirnaneurysmen und Tumoren). Dadurch können Ärzte klinische Verfahren beschleunigen, geeignete Präventivbehandlungen einrichten und mehr Zeit für das psychische Wohlbefinden der Patienten aufwenden.

7 Betrug im Gesundheitswesen

Versicherungen und Einrichtungen des Gesundheitswesens setzen Techniken des maschinellen Lernens ein, um Betrug zu verhindern. Zusammen mit Software zur Verarbeitung natürlicher Sprache können ML-basierte Lösungen zur Betrugserkennung medizinische Berichte und Versicherungsansprüche scannen, um Anomalien und Ungereimtheiten wie falsche Diagnosen oder überhöhte Kosten für die medizinische Versorgung zu erkennen.

Trainieren Sie GAN, um die nächsten 3 gesunden MRT-Schichten aus den vorherigen 3 Schichten zu rekonstruieren

Zug

Klassifizieren Sie MRT-Scans anhand der Rekonstruktion in gesund oder krank

Ableiten

Example of unsupervised medical anomaly detection

Bildtitel: Beispiel für die unüberwachte Erkennung medizinischer Anomalien

Datenquelle: bmcbioinformatics.biomedcentral.com - MADGAN: unsupervised medical anomaly detection GAN using multiple adjacent brain MRI slice reconstruction, 2021

Einzelhandel und E-Commerce

8 Betrug im elektronischen Zahlungsverkehr

Diese Art von Kriminalität ist zu einer großen Bedrohung für Einzelhändler, Einkaufsplattformen und deren Kunden geworden. Der Einsatz von maschinelles-lernen-gesteuerten Systemen im Einzelhandel kann dazu beitragen, diese Bedrohung zu deeskalieren, indem anomales Kontoverhalten (wie eine steigende Transaktionshäufigkeit und eine Änderung der IP-Adressen oder Anmeldezeiten) erkannt, verdächtige Nutzer markiert und sogar gesperrt werden.

9 Sicherheit

ML-gestützte Videoüberwachungssysteme nutzen maschinelles Lernen und Computer-Vision, um anomale Verhaltensmuster zu erkennen (z. B. wenn ein Kunde ein Produkt in die Tasche steckt) und so ein sicheres Einkaufsumfeld zu gewährleisten.

Fertigung

10 Sicherung der Qualität

In Kombination mit Computer Vision in der Fertigung ermöglicht die ML-basierte Anomalieerkennung den Herstellern, die Qualität ihrer Produkte und Verpackungen zu überprüfen, bevor sie das Werk verlassen. Dazu gehört eine genaue visuelle Inspektion mit hochauflösenden Kameras, um Designanomalien zu erkennen, die die Nutzbarkeit des Produkts beeinträchtigen könnten.

11 Vorausschauende Wartung

Die Zustandsüberwachung in Echtzeit stützt sich auf die ML-basierte Erkennung von Anomalien und IoT-gestützte Sensoren, um Daten von Industrieanlagen zu erfassen, Abweichungen von der Standardleistung zu erkennen und bevorstehende Ausfälle vorherzusagen. Auf der Grundlage solcher Prognosen können Hersteller Wartungsarbeiten durchführen, um ihre Anlagen zu reparieren.

Verbessern Sie Ihr Geschäft mit unseren Lösungen für maschinelles Lernen

Zu Itransition wechseln

Beispiele für ML-basierte Anomalieerkennung

13x

schnellere Planung der Strahlentherapie

Das InnerEye-Team von Microsoft und der britische NHS haben ein ML-basiertes System entwickelt, um Tumore und andere Anomalien in 3D-Röntgenbildern aufzuspüren und die Planung von Strahlentherapie und Operationen zu beschleunigen.

+50%

der aufgedeckten Fälle von Geldwäsche

Die Danske Bank setzte eine ML-gestützte Lösung zur Erkennung von Anomalien ein, um Fälle von Geldwäsche zu identifizieren, was zu einer massiven Verringerung von Fehlalarmen und einem Anstieg der echten positiven Ergebnisse führte.

-70%

Zeit für Betrugsermittlungen

Capgemini entwickelte ein ML-basiertes Tool zur Erkennung von Anomalien für die Prävention von Kreditkartenbetrug, das eine signifikante Steigerung der Erkennungsrate und eine Verkürzung der Untersuchungszeit ermöglichte.

+40%

festgestellte kosmetische Mängel

Volvo Cars implementierte Atlas, ein auf maschinellem Lernen und Computer Vision basierendes Karosserie-Inspektionssystem, um die Erkennung von Anomalien zu automatisieren und seine Qualitätssicherungsprozesse zu verbessern.

Ansätze zur Erkennung von Anomalien

Ein ML-Algorithmus kann durch drei verschiedene Trainingstechniken lernen, Muster und Anomalien zu erkennen:

Überwachte Erkennung von Anomalien

Der Algorithmus zur Erkennung von Anomalien wird mit bereits etikettierten Daten trainiert, d. h. mit Daten, die bereits als normal oder anomal gekennzeichnet sind.

Profis

Diese Technik liefert dem ML-System eindeutige Beispiele für Standarddatenpunkte (z. B. aus rechtmäßigen Transaktionen) und ermöglicht die Erkennung von Ausreißern (z. B. betrügerische Transaktionen).

Nachteile

Es erfordert einen zeitaufwändigen manuellen Markierungsprozess.

Unüberwachte Erkennung von Anomalien

Unsere Datenwissenschaftler und ML-Ingenieure versorgen den Algorithmus mit unbeschrifteten Datensätzen und lassen ihn selbständig Muster oder Anomalien entdecken.

Titel des Themas: Unüberwachtes maschinelles Lernen für Anomalie-Erkennung
Datenquelle: pwc.com-Using machine learning to identify unusual patterns in data

Profis

Dieser Ansatz eignet sich besser für die Untersuchung noch nie dagewesener Szenarien (einschließlich neuer Arten von Cyberangriffen, für die bisher keine Daten gekennzeichnet wurden).

Nachteile

Es erfordert riesige Datensätze und Rechenleistung. Es wird im Allgemeinen mit Deep Learning in Verbindung gebracht, einem fortgeschrittenen Unterzweig von ML, der sich auf künstliche neuronale Netze stützt.

Data

Anomalies

Typical use cases

Instruction detection

Fraud detection

Fault detection

Medical anomaly detection

Semi-überwachte Erkennung von Anomalien

Dieser Ansatz kombiniert die bisherigen Techniken zur Erkennung von Anomalien, um ihre Vorteile zu maximieren. Dateningenieure stellen einem Algorithmus eine kleine Menge gekennzeichneter Daten zur Verfügung, um ihn teilweise zu trainieren, und verwenden dann denselben Algorithmus, um einen größeren Datensatz eigenständig zu kennzeichnen (Pseudokennzeichnung). Wenn sich die erzeugten Kennzeichnungen als zuverlässig erweisen, werden diese neu gekennzeichneten Datenpunkte dem ursprünglichen Datensatz hinzugefügt, um den Algorithmus zu verfeinern.

Profis

Dank Pseudo-Labeling ist das Tagging-Verfahren schneller und kostengünstiger als das überwachte Lernen.

Nachteile

Der Prozess zur Vervollständigung des ursprünglichen Satzes erfordert mehrere Iterationen.

ML-Algorithmen für die Erkennung von Anomalien

Dateningenieure nutzen verschiedene Techniken und Algorithmen des maschinellen Lernens, um maschinelle Lernmodelle für Systeme zur Anomalie-Erkennung zu erstellen. Hier ist nur eine kurze Auswahl der gebräuchlichsten Verfahren.

Datenquelle: IEEE - Machine Learning for Anomaly Detection: A Systematic Review, 24. Mai 2021

Machine learning techniques

Classification

SVM

Random tree (RT)
Random forest (RF)
L48/C.45
Entropy

Decision tree

One-class SVM
Two-class SVM
Core vector machine (CVM)
Kernel methods

Neural network

Kernel neural network (kNN)

Convolutional neural network (CNN)

Artificial neural network (ANN)

Restricted Boltzmann machine (RBM)

Self organizing map (SOM)

Recurrent neural network (RNN)

Hierarchical temporal memory (HTM)

Long short-term memory

Bayesian network (BN)

K-nearest neighbors (K-NN)

Conditional random field (CRF)

Local outlier factor (LOF)

Optimization

Genetic algorithm (GA)
Linear embedding

Ensemble

AdaBoost

Rule system

Fuzzy

Clustering

K-means
Hierarchical clustering (HC)
Fuzzy clustering
Nearest clustering

Regression

Logistic
Linear

Support-Vektor-Maschine

Ein überwachter Lernalgorithmus, der bei großen Datensätzen sehr gut funktioniert, aber eine hohe Rechenleistung erfordert und bei der Analyse komplexer Anomalien weniger zuverlässig ist als andere Optionen.

Entscheidungsbaum

Ein weiterer überwachter Lernalgorithmus, der einem baumartigen Entscheidungsmodell folgt, bei dem jede Verzweigung die Analyse einer bestimmten Variable darstellt, um vorherzusagen, ob ein bestimmtes Ereignis anomal ist oder nicht.

Zufälliger Wald

Der Isolationswald ist ein leistungsfähiger Algorithmus, der mehrere Entscheidungsbäume kombiniert, um größere Datensätze zu analysieren und seine Fähigkeiten zur Mustererkennung und Erkennung von Anomalien zu verbessern.

Logistische Regression

Ein überwachter Lernalgorithmus, der dazu dient, die Wahrscheinlichkeit eines bestimmten Ergebnisses zwischen zwei Alternativen (normales Ereignis oder Anomalie) in Abhängigkeit von einer Reihe von Schlüsselvariablen zu bewerten.

K-ächster Nachbar

Ein abstandsbasierter, überwachter Lernalgorithmus, der die Art eines potenziell anomalen Ereignisses vorhersagt, indem er es mit ähnlichen Ereignissen vergleicht, die in der Vergangenheit aufgezeichnet und als "Nachbarn" definiert wurden.

Neuronale Netze

Komplexe Sätze von Deep-Learning-Algorithmen, die aus miteinander verbundenen Schichten künstlicher Neuronen bestehen, die die Architektur des menschlichen Gehirns nachahmen, und in der Regel zur Erkennung feinster Muster und Anomalien durch unbeaufsichtigtes Lernen eingesetzt werden. Zum Beispiel "Convolutional Neural Networks" und "Bayesian Neural Networks".

Der Fahrplan für die Einführung von ML-basierter Software zur Erkennung von Anomalien

Dies sind die wichtigsten Schritte, die erforderlich sind, um eine Softwarelösung zur Erkennung von Anomalien mithilfe von Algorithmen des maschinellen Lernens zu erstellen und einzusetzen.

1

Die Datenstrategie

Unternehmensanalyse und Projektrahmen

Identifizierung des Tech-Stacks

2

Auswahl der Datenquelle

Bewertung der Unternehmensdaten

Integration mit externen Datenbeständen

3

Datenerhebung

Einrichtung von ETL-Pipelines (Extrahieren, Transformieren, Laden)

Einrichtung eines Datenspeichers (Data Lake oder Warehouse)

4

Vorbereitung der Daten

Datenbereinigung

Data Reengineering durch Merkmalsauswahl

5

Modellierung von Daten

Auswahl und Entwurf von ML-Algorithmen

Datenverarbeitung für das Algorithmus-Training

6

Softwareentwicklung

UI/UX-Design und Software-Programmierung

Integration in Ihr Unternehmens-Ökosystem

7

Analyse der Daten

Identifizierung von Mustern und Anomalien

Datenvisualisierung (Dashboards, visuelle Berichte)

8

Laufende Unterstützung

Software-Anpassungen nach der Veröffentlichung

Kontinuierliche Benutzerunterstützung und Schulung

Vorteile des maschinellen Lernens für die Anomalie-Erkennung

ML-gestützte Systeme zur Erkennung von Anomalien bieten mehrere Vorteile gegenüber herkömmlichen Lösungen.

Hervorragende Reaktivität

Traditionelle Methoden beruhen auf Regeln, die manuell aktualisiert werden müssen, um neue Szenarien zu erfassen. ML-Algorithmen hingegen lernen selbstständig aus den neuen Datensätzen, die sie verarbeiten, und gewährleisten eine höhere Reaktionsfähigkeit auf neue Anomalien.

Verbesserte Skalierbarkeit

Dieselben hochdimensionalen Daten, die für herkömmliche Methoden zur Erkennung von Anomalien eine Belastung darstellen können, sind eine wertvolle Trainingsressource für Algorithmen des maschinellen Lernens, die ihre Fähigkeiten verbessern, je mehr Daten sie verarbeiten.

Größerer Datenbestand

Während sich regelbasierte Methoden mit unstrukturierten Daten (wie medizinischen Bildern oder handschriftlichen Berichten) schwer tun, können ML-Systeme dank ML-gestützter Technologien wie Computer Vision und Natural Language Processing jeden Datensatz verarbeiten.

Größere Genauigkeit

ML-basierte Systeme zur Erkennung von Anomalien berücksichtigen im Vergleich zu regelbasierten Lösungen ein breiteres Spektrum an Variablen, was zu einer höheren Genauigkeit, einer geringeren Rate an Fehlalarmen, die eine manuelle Überprüfung erfordern, und einer höheren Kosteneffizienz führt.

Lösung der Herausforderungen bei der ML-basierten Erkennung von Anomalien

Potenzielle Herausforderung

Empfehlung

Ausbildungszeiten

Das Training von Algorithmen zur Erkennung von Anomalien ist ein zeitaufwändiger und rechenintensiver Prozess, da die Datensätze groß genug sein sollten, um genügend Beispiele für Ausreißer zu liefern.

Ausbildungszeiten

Ein gängiger Trick zur Trainingsoptimierung besteht darin, je nach Szenario eine kleinere Teilmenge wesentlicher Merkmale (wie IP-Adresse, Transaktionsdaten oder Zahlungsmethode) auszuwählen und irrelevante Attribute zu verwerfen.

Einhaltung der Vorschriften

Der schwierige Kompromiss zwischen dem Datenhunger von ML-Algorithmen und den strengen Gesetzen zur Datenverwaltung kann in stark regulierten Branchen wie dem Finanzwesen und der Medizin ein massiver Nachteil sein.

Einhaltung der Vorschriften

Stellen Sie sicher, dass Ihre ML-basierte Lösung zur Erkennung von Anomalien alle wichtigen Normen und Vorschriften erfüllt, die für Ihre Branche gelten, z. B. GDPR, HIPAA und PCI DSS.

Unausgewogene Datensätze

Anomalien sind naturgemäß viel weniger häufig als Standarddatenpunkte mit normalem Verhalten. Dies kann dazu führen, dass die Trainingsdatensätze unausgewogen und die Algorithmen potenziell verzerrt sind.

Unausgewogene Datensätze

Sie können synthetische Minoritäts-Oversampling- oder Majoritäts-Undersampling-Techniken verwenden, um die Anzahl der Ausreißer im Vergleich zu normalen Dateninstanzen künstlich zu reduzieren und somit einen ausgewogeneren Datensatz zu gewährleisten.

Risikobewältigung mit Algorithmen

ML-basierte Systeme zur Erkennung von Anomalien haben ihr Potenzial bei der proaktiven Bewältigung von Risiken in verschiedenen Branchen und Anwendungen bewiesen, von der Betrugsprävention und Cybersicherheit bis hin zu fortschrittlichen Diagnosen und der Überwachung von Anlagen in Echtzeit. Darüber hinaus hat sich die Anomalie-Erkennung mit maschinellem Lernen gegenüber ihren traditionelleren, regelbasierten Pendants als überlegen erwiesen, dank einer erfolgreichen Mischung aus Reaktivität, Skalierbarkeit und Genauigkeit. Trotz einiger Herausforderungen beim Algorithmus-Training und bei der Einhaltung von Vorschriften kann maschinelles Lernen bei der Anomalie-Erkennung das berühmte Motto "Vorbeugen ist besser als Heilen" in die Tat umsetzen. Wenn Sie Ihr Risikomanagement verbessern wollen, sollten Sie die Implementierung einer auf maschinellem Lernen basierenden Lösung in Betracht ziehen, die von Itransition fachmännisch entwickelt wurde.

Erfahren Sie, wie Ihr Unternehmen vom maschinellen Lernen profitieren kann

Kontakt aufnehmen

FAQs

Warum brauchen Sie maschinelles Lernen für die Anomalie-Erkennung?

Im Vergleich zu herkömmlichen Methoden weisen Lösungen für maschinelles Lernen zur Erkennung von Anomalien eine geringere Rate an falsch-positiven Ergebnissen auf, verbessern die Leistung bei der Verarbeitung neuer Daten und können besser mit neuen Arten von Anomalien umgehen.

Welche Ansätze gibt es bei der ML-basierten Erkennung von Anomalien?

Die Erkennung von Anomalien mit maschinellem Lernen kann auf drei Arten erfolgen, je nachdem, welche Trainingstechnik verwendet wird, um einem Algorithmus beizubringen, Anomalien zu erkennen: überwacht, unbeaufsichtigt oder halbüberwacht.

Welcher Algorithmus des maschinellen Lernens wird verwendet, um Anomalien zu erkennen?

Ingenieure des maschinellen Lernens können auf verschiedene Algorithmen des maschinellen Lernens und des Deep Learning zurückgreifen, darunter Ein-Klassen-Support-Vektor-Maschinen (Ein-Klassen-SVMs), DBSCAN, Entscheidungsbäume, Random Forests, logistische Regression, k-nearest neighbor, Python Outlier Detection (PyOD) und verschiedene Arten von neuronalen Netzen.