Lernen durch Schmerzen! Mit Reinforcement Learning selbstlernende Systeme entwickeln

Slide 1

Slide 1 text

LERNEN DURCH SCHMERZEN! Mit Reinforcement Learning selbstlernende Systeme entwickeln JÖRG NEUMANN

Slide 2

Slide 2 text

THEMEN  AI Development  Business App Development  Frontend Technologies  Development, Consulting, Coaching, Training KONTAKT  Mail: [email protected]  LinkedIn: www.linkedin.com/in/jörgneumann  X: @JoergNeumann  Web: www.neogeeks.de JÖRG NEUMANN Founder & CEO NeoGeeks GmbH Azure OpenAI Service, Azure Machine Learning Platform

Slide 3

Slide 3 text

AI Dev Camp 8.-9. Oktober 2024 in Düsseldorf Das Trainingsevent für KI-getriebene Softwareentwicklung. 2 Tage geballte Wissensvermittlung mit Jörg Neumann, Neno Loje & Special Guests. Jörg Neumann MVP AI Platform Neno Loje MVP Developer Technologies www.AIDevCamp.de

Slide 4

Slide 4 text

WANN BRAUCHT MAN MACHINE LEARNING? Menge Komplexität Personalisierung Selbstlernend

Slide 5

Slide 5 text

Eingabe Training Ergebnis SUPERVISED LEARNING

Slide 6

Slide 6 text

Eingabe Antwort Feedback Lernen REINFORCEMENT LEARNING

Slide 7

Slide 7 text

Robotics Trading Marketing Strategien EINSATZFÄLLE

Slide 8

Slide 8 text

E-Commerce Bots Selbstfahrende Autos EINSATZFÄLLE

Slide 9

Slide 9 text

 Machine-Learning-Methode  Ein Agent interagiert mit einer Umgebung  Lernt dabei selbständig auf Basis des Belohnungsprinzips WAS IST REINFORCEMENT LEARNING?

Slide 10

Slide 10 text

Agent Environment State Action Reward Ein Agent führt in einer Umgebung zu einem best. Status eine Action aus und erhält eine Reaktion Die Reaktion der Umgebung auf die Aktion beeinflusst die Wahl der Aktion im nächsten Status Entscheidungsmatrix FUNKTIONSWEISE

Slide 11

Slide 11 text

DEFINITION  Entwickelt 1989 von Chris Watkins  Eine Variante des Temporal-Different-Learnings  Benannt nach der Bewertungsfunktion, der Q-Function: u ׂ ¸ ְ � †׃  Anwendung bei kleinen Aktions- und Zustandsräumen Q-LEARNING

Slide 12

Slide 12 text

DEFINITION  Q-Funktion: Q(s,a)  Beschreibt den erwarteten Nutzen Q einer Aktion a im Status s  Die Nutzenwerte werden in der sog. Q-Matrix gespeichert  Dimensionen der Matrix: Anzahl der möglichen Stati und Aktionen  Beim Training versucht der Agent, die Q-Werte der Q-Matrix durch Exploration zu approximieren, um diese später als Entscheidungsregel zu nutzen  Nach der Lernphase wählt der Agent in jedem Status diejenige Aktion mit dem höchsten Q-Wert aus Q-FUNCTION

Slide 13

Slide 13 text

erwarteter Nutzen Aktion Status Learning Rate Current Value Discount Factor Reward Future Value Estimate 𝑄𝑄 𝑠𝑠𝑡𝑡 , 𝑎𝑎𝑡𝑡 = 1 − 𝛼𝛼 𝑄𝑄 𝑠𝑠𝑡𝑡 , 𝑎𝑎𝑡𝑡 + 𝛼𝛼 𝑟𝑟𝑡𝑡 + 𝛾𝛾 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑠𝑠𝑡𝑡+1 , 𝑎𝑎 EIN WENIG MATHEMATIK

Slide 14

Slide 14 text

APPROXIMATION DER Q-WERTE  Agent startet in einem zufällig initialisierten Status  Agent selektiert zufällig eine Aktion  Agent beobachtet die entsprechende Belohnung und den darauf folgenden Status  Der gesamte Vorgang der Exploration bis hin zur Belohnung wird als Episode bezeichnet Q-LEARNING

Slide 15

Slide 15 text

Action(0) Action(1) Action(2) Action(3) Action(4) Action(5) 0 0 0 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . 500 0 0 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . 1000 0 0 0 0 0 0 States Q-MATRIX Actions Initialisierung Nach dem Training Action(0) Action(1) Action(2) Action(3) Action(4) Action(5) 0 0 0 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . 500 -2.466928 -3.457417 -4,176588 -0.192454 -6.210890 -0.295700 . . . . . . . . . . . . . . . . . . . . . 1000 0.446754 3.257648 6.854144 8.879366 7.275916 1.135062 Q-MATRIX Actions States Q-MATRIX

Slide 16

Slide 16 text

BEISPIEL

Slide 17

Slide 17 text

Agent Environment State(0) Action State(1) Reward? BESCHREIBUNG

Slide 18

Slide 18 text

DEMO FLAPPY BIRD https://bit.ly/3QYybqF

Slide 19

Slide 19 text

MODELL-BASIERTES Q-LEARNING  Manchmal ist der Statusraum zu komplex, um ihn allumfänglich in einer Table abzubilden (z.B. beim autonomen Fahren)  Generalisierung der Daten durch neuronale Netze  Exploration der Umgebung findet nicht per Zufall statt  Q-Werte werden – basierend auf dem aktuellen Status – durch ein Machine Learning Modell approximiert DEEP Q-LEARNING

Slide 20

Slide 20 text

REINFORCEMENT LEARNING  Ermöglicht die Lösung von komplexen Problemen  Noch mächtiger als Supervised Learning  Entwicklung selbstlernender Systeme  Aber auch komplex in der Implementierung FAZIT

Slide 21

Slide 21 text

Q & A

Slide 22

Slide 22 text

RESSOURCEN  Project Bonsai RL Service in Microsoft Azure  AWS Deep Racer Simulationsumgebung für autonomes Fahren in AWS  Artikel Top 20 Reinforcement Learning Libraries You Should Know  7 Reinforcement Learning GitHub Repositories To Give You Project Ideas