Bewehrungslernen (RL) ist ein Teil des maschinellen Lernens, bei dem ein automatisiertes System lernt, eine Aufgabe zu erledigen, indem es sie immer wieder ausführt, bis es sie richtig macht. Es handelt sich dabei um einen Ansatz der "rohen Gewalt", und die Maschine lernt in der Regel nichts anderes in diesem Prozess; wenn man ihr beibringt, wie man einen Flaschenverschluss abschraubt, lernt sie nichts über Flaschen, Verschlüsse oder sogar notwendigerweise, wie man den Verschluss wieder auf die Flasche setzt (was verschiedene Drehmomentvariablen beinhaltet und für sie ein ganz neuer Studiengang wäre).
Auf der anderen Seite hat eine auf diese Weise trainierte Maschine eine Reihe von bemerkenswerten Vorteilen gegenüber anderen populären maschinellen Lerntechniken:
- Sie kann sich selbst beibringen, ein Ziel ohne menschliche Aufsicht oder Intervention durch einen linearen Prozess von Versuch und Irrtum zu erreichen.
- Es erfordert wenig oder gar kein Vorwissen über die Umgebung.
- Es kann sich bei Bedarf an Veränderungen in einer Umgebung anpassen, die es bereits erfasst hat, ohne dass es sich selbst neu trainieren muss. Auch dies kann es selbständig tun.
- Im Gegensatz zum überwachten und unüberwachten Lernen erfordert dieser Prozess in der Regel nicht das erschöpfende Sammeln, Vorverarbeiten, Aufbereiten und Trainieren umfangreicher Datensätze; die Maschine entwickelt ihren eigenen, optimierten Datensatz mit "optimalen" Aktionen für eine bestimmte Aufgabe.
- Sie kann bei Bedarf als nützliche Komponente innerhalb komplexerer maschineller Lernsysteme eingesetzt werden.
In diesem Artikel wird untersucht, wie RL in verschiedenen Sektoren zunimmt, wie es funktioniert und für welche Anwendungsfälle es am besten geeignet ist.
Der Fall und Aufstieg des Reinforcement Learning
Als das Interesse an komplexen neuronalen Netzen und anderen modellintensiven Deep-Learning-Techniken gegen Ende der 2000er Jahre zunahm, schien es, als würde das Reinforcement Learning als Artefakt der robotergestützten Prozessautomatisierung auf der Strecke bleiben.
Wie sich jedoch herausstellte, ist RL ein bemerkenswert robuster Ansatz zur Lösung genau definierter Herausforderungen und eine nützliche Ergänzung zu den Methoden der Datenexploration. Da der Sektor der neuronalen Netze zunehmend auf Engpässe stößt (von denen viele mit den hohen Kosten für die Datenerfassung und -aufbereitung zusammenhängen), scheint das Verstärkungslernen wieder auf dem Vormarsch zu sein - teilweise als Bestandteil der neueren Systeme, die es einst zu ersetzen drohten, in Form des tiefen Verstärkungslernens (Deep Reinforcement Learning, DRL).
AlphaGo weckt das Interesse am Reinforcement Learning
Die 2016 eingetretene Wende des Interesses am Reinforcement Learning scheint auf den schlagzeilenträchtigen Erfolg von Googles KI-System AlphaGo zurückzuführen zu sein, das einen der besten Go-Spieler aller Zeiten besiegte. Im Anschluss an den AlphaGo-Sieg schlugen Kathryn Hume und Matthew E. Taylor von der Harvard Business Review vor, dass RL die logischste maschinelle Lerntechnologie für eine breite Palette von KI-Anwendungsfällen sein könnte, von der Planung von Lagerbestandsystemen über die Bestimmung des richtigen Reagenz für eine Molekülsimulation bis hin zur Verwaltung der Infrastruktur von Rechenzentren.
In Bezug auf Rechenzentren erhielt RL im Jahr 2018 einen zusätzlichen PR-Schub, als Google eine 40-prozentige Senkung der Kühlkosten für Rechenzentren durch Experimente mit Reinforcement Learning bekannt gab.
Reinforcement Learning in Fortune 1000-Unternehmen
Reinforcement Learning ist eine Kerntechnologie in einer Vielzahl von Sektoren, die von einer wachsenden Zahl von Fortune-1000-Unternehmen genutzt wird:
- Das US-amerikanische Unternehmen für Elektronikdesign-Automatisierung Synopsys nutzt Reinforcement Learning als Motor für DSO.ai (Design Space Optimization AI), das Lösungsräume im Chipdesign identifiziert.
- J.P. Morgan verwendet Reinforcement Learning als Kerntechnologie in seinem Deep Neural Network for Algo Execution (DNA) Market Pricing Toolset.
- Der Verifizierungsanbieter JasperGold verwendet Online- und Offline-Verstärkungslernen in seinem JasperGold Expert System.
- Starbucks verwendet Reinforcement Learning in seinen Bereitstellungsroutinen.
- Der Cybersicherheitsanbieter Fortinet setzt RL ein, um Ergebnisse aus überwachten und unbeaufsichtigten Lernsystemen zu "beweisen".
- Dell nutzt Reinforcement Learning, um die Zuweisung kritischer Systemressourcen in seinen Speicherlösungen zu unterstützen.
Google Brain nutzt Reinforcement Learning, um die optimale Platzierung von Komponenten in proprietären Mikrochip- und ASIC-Architekturen auszuwählen.
Haben Sie Interesse an maschinellem Lernen für Ihr Projekt?
Zusammenarbeit mit Itransition, um es richtig zu machen
Kernprinzipien des verstärkten Lernens
Verstärkungslernen hat eine recht einfache Kernarchitektur, die in vier Komponenten unterteilt ist:
1: Agent
Der Agent ist die forschende Kapazität des Systems. Er navigiert in der Datenumgebung auf lineare Weise, wie ein Spieler, der ein Videospiel ohne vorherige Anweisungen ausprobiert und in der Nähe des Punktes seiner letzten Niederlage wieder auftaucht, nachdem er "getötet" wurde (d.h. seine Ziele nicht erreicht hat). Er merkt sich, was ihn zuvor umgebracht hat, und wird beim nächsten Mal etwas anderes versuchen.
Manchmal kommt der Agent in einem Entscheidungszweig ein gutes Stück voran, nur um dann festzustellen, dass der Zweig selbst vom Hauptziel wegführt; in solchen Fällen wird der Agent (oder, falls erforderlich, der Host-Rahmen) rekursiv zu einem früheren Punkt als dem letzten Misserfolg "zurückgesetzt", um festzustellen, welcher Zweig-Einschnitt den Weg in eine "Sackgasse" markierte, und dann in eine andere Richtung weitergehen.
2: Umwelt
In Anlehnung an die Analogie zum Videospiel werden die Daten, die der zielorientierte Agent durchqueren muss, als Umgebung bezeichnet. Der Agent baut eine Karte der Umgebung auf und behält sie bei, während sich seine Fehler häufen und sein Wissen zunimmt.
Die Umgebung kann buchstäblich oder abstrakt sein, wie z.B. die 4D-Koordinaten eines Roboters, der lernt, ein Glas Wasser einzuschenken, kombiniert mit Feedback-Video und taktilen oder haptischen Daten; eine Reihe von Rasterbildern, die das Material eines Videospiels (beliebiger Komplexität) umfassen; die halb kartierten, dunkel beleuchteten Straßen, die ein autonomes Fahrzeug sicher befahren muss; oder jede andere Datenarchitektur oder reale Umgebung, die sich für wiederholtes, prozedurales Feedback-Lernen dieser Art anbietet.
3: Handlungen
Die Aktionen beim Verstärkungslernen sind Entscheidungen, die der Agent trifft, vom schnellen Bremsen bis zum Bewegen eines Videospiel-Cursors nach oben oder unten oder dem Kippen einer Roboterarmatur in die eine oder andere Richtung.
4: Politik
Politik beim Reinforcement Learning ist die Menge an Regeln und/oder Zielen, die die Mission des Agenten definieren und die Art und Weise bestimmen, wie der Agent erzogen wird, wenn er auf seiner Reise Fehler macht.
Der Agent kann positiv oder negativ belohnt werden; im Gegensatz zur Pawlowschen Reaktion in der menschlichen Psychologie ist der Unterschied relativ semantisch, da die Motivationsarchitektur der Maschine wahrscheinlich für eine der beiden Methoden (oder eine Mischung aus beiden) ausgelegt ist. Nichtsdestotrotz kann negative Verstärkung dem Agenten helfen, zu lernen und unfruchtbare Ansätze zu vermeiden, möglicherweise auf Kosten seiner allgemeinen Bereitschaft zu erkunden.
KombinierenpLösungen
Das Training eines RL-Systems kann mehrere Strategien beinhalten, die unterschiedlich priorisiert werden - ein Schema, das in den Drei Gesetzen der Robotik dargestellt wird, die der Science-Fiction-Autor Isaac Asimov in den 1940er Jahren formulierte:
- 'Ein Roboter darf einen Menschen nicht verletzen oder durch Untätigkeit zulassen, dass ein Mensch zu Schaden kommt.'
- 'Ein Roboter muss Befehle befolgen, die ihm von Menschen gegeben werden, es sei denn, diese Befehle würden dem ersten Gesetz widersprechen.'
- 'Ein Roboter muss seine eigene Existenz schützen, solange dieser Schutz nicht im Widerspruch zum ersten oder zweiten Gesetz steht.'
Bei näherer Betrachtung (und auch ohne ein erklärtes Ziel irgendeiner Art) umfassen diese drei Regeln mindestens sieben mögliche Überlegungen, die ein Agent in Betracht ziehen muss, bevor er sich für eine Handlung entscheidet. Das Potenzial für interne Dissonanzen in komplexeren Regelsätzen liegt daher auf der Hand, so dass "Kollisionen" wohl das bekannteste Beispiel für KI in der Science-Fiction sind.
Politikgefälle
Es ist also klar, dass eine wirksame und vielseitige politische Architektur definiert werden muss, um sicherzustellen, dass die Erreichung des Ziels kein inakzeptables "Risiko" oder einen katastrophalen logischen Konflikt im System nach sich zieht.
Darüber hinaus ist es aufgrund der relativ "blinden" Natur des Verstärkungslernens wahrscheinlich, dass die Richtlinien unerwarteten Situationen begegnen, aber dennoch müssen sie dem Agenten praktische Anleitungen geben, um zu häufige "Stopp"-Szenarien oder die komplette Umgestaltung der Richtlinien oder des Prozesses zu verhindern.
Zu diesem Zweck bietet die Policy-Gradient-Theorie eine Methode zur Entwicklung von Regeln, die in verschiedenen Kontexten funktionieren und den Wert des/der Endziels/e des Agenten bei Bedarf ändern können.
Um die Notwendigkeit von Policy-Gradienten zu verstehen, sollten wir bedenken, dass es beim Reinforcement Learning zwei Arten von Policy gibt:
- Deterministische Politik
...bei der wir sicher sein können, dass die Aktion eines Agenten ein bestimmtes gewünschtes Ergebnis haben wird, wie z.B. die Entscheidung, einen vollen Becher um 90 Grad zu kippen, was mit Sicherheit dazu führen wird, dass ein Teil der Flüssigkeit ausgegossen wird. - Stochastische Politik
...bei denen die Umgebung und/oder das Ergebnis von Handlungen nicht notwendigerweise aus bekannten physikalischen Gesetzen abgeleitet wurden, wie im vorherigen Beispiel; sie sind nicht "sicher" und der Agent muss seine Entscheidungen sorgfältiger bewerten - ein Prozess, der als Partially Observable Markov Decision Process (POMDP, siehe "Markov Decision Process" unten) bekannt ist.
Deterministische Ansätze können außerhalb jedes politischen Rahmens operieren und werden oft als "direkter" Weg zu schnellen Ergebnissen beim Verstärkungslernen bezeichnet; aber wie viele Abkürzungen im Leben sind sie mit einer Reihe von Vorbehalten verbunden, wie wir gleich sehen werden.
Markov Decision Process (MDP)
Ein Markov-Entscheidungsprozess (MDP) entscheidet über den nächstbesten Zug auf der Grundlage der aktuellen Umstände oder des "Zustands". In einem einfachen MDP bewertet ein Agent den Zustand, in dem er sich befindet, ergreift Maßnahmen und geht zum nächsten Zustand über. Bei der Bewertung des nächsten Zustands berücksichtigt er nicht notwendigerweise die erfolgreichen Aktionen, die ihn an seinen aktuellen Fortschrittspunkt gebracht haben.
Obwohl ein MDP rechnerisch effizient und semantisch sehr schlank ist, kann es manchmal kurzsichtig sein und das Erreichen kurzfristiger Ziele begünstigen, ohne das längerfristige Ziel des Experiments weiter zu berücksichtigen.
Deshalb ist oft eine komplexe Strategiearchitektur erforderlich, um die Art und Weise, wie der Agent in der Datenumgebung navigiert, korrekt zu kalibrieren. Um sicherzustellen, dass der Agent nicht kurzfristigen Gewinnen gegenüber langfristigen Zielen den Vorzug gibt, kann die diskontierte Belohnung neben anderen Techniken als ausgleichendes Mittel in der Politik eingesetzt werden.
Q-Lernen
Im Gegensatz zu den Markov-Entscheidungsprozessen, die dem stochastischen Reinforcement Learning zugrunde liegen, ist Q-Learning eine deterministische Methode, die einen noch solipsistischeren Ansatz für RL verfolgt.
Q-Learning lernt direkt aus Handlungen, unabhängig davon, ob diese Handlungen durch eine Richtlinie abgedeckt sind oder nicht, und versucht, die Belohnung für den Agenten zu maximieren, indem es Entscheidungen auf die aktuellen Umstände stützt. Q-Learning ist daher eher eine wertbasierte Methode (oder Wertfunktion) als eine richtlinienbasierte Methode.
Auch wenn es wie eine pragmatischere und direktere Lösung zur Steuerung von Entscheidungen erscheinen mag, hat Q-Learning einige Einschränkungen. Zum einen kann die Auswirkung einer kleinen Änderung in den Handlungen Spitzen im Training verursachen, da die Konsequenzen der verschiedenen Handlungen nicht gelernt und im Voraus berechnet wurden, wie bei einer Policy-Gradienten-Methode, die sauberer durch die mögliche Bandbreite von Handlungen bis zum optimalen Ergebnis iteriert.
Deterministische Methoden können in ihrer Eile stecken bleiben
Außerdem kann ein Policy-Gradient eine stochastische Policy integrieren, eine Wertfunktion (Q-Learning) hingegen nicht. Dies kann eine Wertfunktion im Vergleich zu einem stumpfen Instrument machen oder dazu führen, dass sie ganz versagt.
Im folgenden Beispiel des Google DeepMind-Forschers David Silver sehen wir, wie ein deterministischer Ansatz an perceptual aliasing scheitert, bei dem zwei Zustände scheinbar identisch sind, aber unterschiedliche Aktionen erfordern. In diesem Fall wird sich ein starrer, deterministischer Ansatz (oben abgebildet) in den beiden grauen Zuständen (rote Pfeile) entweder nach Westen oder nach Osten bewegen, weil er den Nutzen einer Rückwärtsbewegung nicht versteht.
Auf diese Weise verbringt der deterministische Ansatz viel Zeit damit, den potenziellen Bewegungskorridor zu analysieren, und selbst dann kann es passieren, dass er stecken bleibt und die Belohnung nie erreicht.
Im Gegensatz dazu bewegt sich ein stochastischer Ansatz (rechts im gleichen Bild) in den grauen Zuständen zufällig in verschiedene Richtungen und erreicht das Ziel schnell, in nur wenigen Schritten.
Treten Sie den Unternehmen bei, die das Beste aus dem maschinellen Lernen machen
3 beliebte Anwendungsfälle für Reinforcement Learning
Autonome Technologien
Autonome Boden- und Flugfahrzeuge können zwar auf eine arbeitsintensive Offline-Datenkuration und ein Modelltraining angewiesen sein, benötigen aber häufig eine Echtzeit-Anpassungsfähigkeit angesichts von Hindernissen, sowohl im wörtlichen als auch im übertragenen Sinne. Daher spielt das Verstärkungslernen in solchen Architekturen eine wichtige Rolle.
Es gibt eine Reihe von populären Simulationsumgebungen zum Testen von Verstärkungslerntechniken für autonome Fahrzeugtechnologien. Dazu gehört das quelloffene Carla, das eine komplexe städtische Welt bietet, in der Agenten navigieren können. Carla verfügt über einen eigenen RL-Agenten, dessen Inferenzcode auf GitHub verfügbar ist.
Eine ähnliche Umgebung ist im KI-Simulator Voyage Deep Drive verfügbar, der Deep Reinforcement Learning auf OpenAI-Basislinien und die Integration mit UnrealEnginePython unterstützt, einer Portierung der beliebten Spiele-Engine, die direkt in ein Python-Framework integriert werden kann.
Amazon's DeepRacer gibt AWS-Entwicklern die Möglichkeit, einen echten Prototyp eines Autos auf einer Rennstrecke im Dienste verbesserter RL-Algorithmen zu fahren.
DeepRacer verfügt zwar über eine Simulationsplattform, konzentriert sich aber in erster Linie auf die Interaktion mit der für das Fahrzeug geschaffenen Sandbox in der realen Welt.
Robotische Bewegung und Manipulation
Da Roboter mit der realen Welt interagieren müssen, ist das Verstärkungslernen in der Robotikforschung gut vertreten, wenn auch nicht unbedingt in den bekanntesten Beispielen.
Bestärkungslernen ist keine wichtige Komponente bei den "realen" Tests der sich frei bewegenden Roboter von Boston Dynamics, die viel zu teuer sind, um das Risiko einer Markov-Kette einzugehen, und deren von RL abgeleitete Algorithmen zunächst in virtuellen Umgebungen getestet werden.
Im März 2021 stellte die UC Berkeley jedoch einen verkürzten zweibeinigen Roboter vor, der robust und erschwinglich genug ist, um dem Prozess standzuhalten, und der sich das Gehen durch Versuch und Irrtum mittels verstärktem Lernen selbst beigebracht hat.
In kontrollierten Umgebungen, in denen Industrieroboter von festen Positionen aus unter weniger prekären Bedingungen arbeiten können, gehört das verstärkende Lernen zu den führenden Technologien des maschinellen Lernens, die derzeit erforscht werden.
Im März 2021 hat Amazon, einer der aktuellen Branchenführer in der Robotikforschung, SageMaker Reinforcement Learning Kubeflow Components auf den Markt gebracht, ein sekundäres Toolkit für seine RoboMaker-Entwicklungsumgebung für Robotikingenieure und Forscher. SageMaker wird auf einem Kubernetes-Cluster innerhalb einer AWS-Umgebung betrieben.
Recommender-Systeme
Reinforcement-Learning-basierte Empfehlungssysteme (RLRS) entwickeln sich zu einer beliebten Alternative (oder zumindest zu einer Ergänzung) zu den auf Matrixfaktorisierung basierenden Deep-Learning-Ansätzen, die in diesem Bereich mittlerweile dominieren.
Es handelt sich um eine relativ kontroverse Bewegung, da RL ein einziges Ziel anstrebt, das standardmäßig zu einer einzigen Empfehlung führt, während ein Empfehlungssystem weitgehend darauf ausgelegt ist, eine begrenzte Liste von rangierten Empfehlungen durch einen komplizierten Prozess der Domänenbewertung und der Schlüsselwort-/Merkmalsanalyse zu liefern. Dieser Trend in Richtung RL wird weitgehend durch die Popularität von Q-Learning als hochgradig optimierte und prosaische Methode zur Erlangung einer Item>Item-Übereinstimmung angetrieben.
In den letzten zwei Jahren hat Netflix eine wachsende Reihe von Tests für den Einsatz von Reinforcement Learning in seinen Verbraucher- und Backend-Systemen durchgeführt und verwendet derzeit RL, um die Auswahl von Kunstwerken für die verschiedenen GUIs seiner App ecostructure zu unterstützen.
Google, ein weltweit führendes Unternehmen in der KI-Forschung, nimmt das Potenzial von Reinforcement Learning in Empfehlungssystemen sehr ernst: Ende 2019 startete Google AI RecSim, eine konfigurierbare Plattform für die Entwicklung von Empfehlungssystemen, die sequenzielle Interaktion nutzen und die Möglichkeiten erforschen, die RL für einen der heißesten Sektoren in der Tech-Branche bietet.
Abschluss
Es gibt Herausforderungen, die mit den "linearen" Methoden des Reinforcement Learnings allein nicht sinnvoll oder wirtschaftlich zu lösen sind. Daher stellt dieser Ansatz nicht automatisch die "am wenigsten komplizierte" Lösung dar, die eine mögliche Architektur des maschinellen Lernens bieten könnte.
Außerdem hängt die Anwendbarkeit eines RL-Ansatzes stark davon ab, wie kompatibel Ihre Datenarchitektur oder Ihr "zentrales Problem" ist und wie abstrakt die Herausforderung ist. Wenn Sie nach versteckten Beziehungen in großen Datenmengen suchen (d.h. Sie wissen nicht genau, was Sie zu finden erwarten), könnte sich RL als Sackgasse erweisen, außer als unterstützendes Werkzeug.
Wenn Ihr Ziel hingegen spezifisch und exklusiv ist und sich abbilden und quantifizieren lässt, kann Reinforcement Learning tatsächlich der direkteste und wirtschaftlichste Ansatz sein.