$30 off During Our Annual Pro Sale. View Details »

Reinforcement Learning – Selbstlernende Modelle entwickeln

Reinforcement Learning – Selbstlernende Modelle entwickeln

Jörg Neumann

July 06, 2022
Tweet

More Decks by Jörg Neumann

Other Decks in Technology

Transcript

  1. REINFORCEMENT LEARNING ROBIN MÜLLER | JÖRG NEUMANN | ACLUE

  2. JÖRG NEUMANN ROBIN MÜLLER THEMEN ▪ Frontend Technologies ▪ Mobile

    Development ▪ Machine Learning ▪ Consulting, Coaching, Training KONTAKT ▪ Mail: Joerg.Neumann@Aclue.de ▪ Twitter: @JoergNeumann THEMEN ▪ Machine Learning ▪ Frontend Technologies ▪ Java Fullstack ▪ Consulting, Training KONTAKT ▪ Mail: Robin.Mueller@Aclue.de www.aclue.de
  3. Die Demo https://bit.ly/3QYybqF

  4. WANN BRAUCHT MAN MACHINE LEARNING? Menge Komplexität Personalisierung Selbstlernend

  5. Eingabe Training Ergebnis SUPERVISED LEARNING

  6. Eingabe Training Ergebnis UNSUPERVISED LEARNING

  7. Eingabe Antwort Feedback Lernen REINFORCEMENT LEARNING

  8. Robotics Trading Marketing Strategien EINSATZFÄLLE

  9. E-Commerce Bots Selbstfahrende Autos EINSATZFÄLLE

  10. ▪ Machine-Learning-Methode ▪ Ein Agent interagiert mit einer Umgebung ▪

    Lernt dabei selbständig auf Basis des Belohnungsprinzips WAS IST REINFORCEMENT LEARNING?
  11. Agent Environment State Action Reward Ein Agent führt in einer

    Umgebung zu einem best. Status eine Action aus und erhält eine Reaktion Die Reaktion der Umgebung auf die Aktion beeinflusst die Wahl der Aktion im nächsten Status Entscheidungsmatrix FUNKTIONSWEISE
  12. Environment Action State Reward Agent ABLAUF

  13. DEFINITION ▪ Entwickelt 1989 von Chris Watkins ▪ Eine Variante

    des Temporal-Different-Learnings ▪ Benannt nach der Bewertungsfunktion, der Q-Function: Q(s, a) ▪ Anwendung bei kleinen Aktions- und Zustandsräumen Q-LEARNING
  14. DEFINITION ▪ Q-Funktion: Q(s,a) ▪ Beschreibt den erwarteten Nutzen Q

    einer Aktion a im Status s ▪ Die Nutzenwerte werden in der sog. Q-Matrix gespeichert ▪ Dimensionen der Matrix: Anzahl der möglichen Stati und Aktionen ▪ Beim Training versucht der Agent, die Q-Werte der Q-Matrix durch Exploration zu approximieren, um diese später als Entscheidungsregel zu nutzen ▪ Nach der Lernphase wählt der Agent in jedem Status diejenige Aktion mit dem höchsten Q-Wert aus Q-FUNCTION
  15. erwarteter Nutzen Aktion Status Learning Rate Current Value Discount Factor

    Reward Future Value Estimate 𝑄 𝑠𝑡 , 𝑎𝑡 = 1 − 𝛼 𝑄 𝑠𝑡 , 𝑎𝑡 + 𝛼 𝑟𝑡 + 𝛾 𝑚𝑎𝑥𝑄 𝑠𝑡+1 , 𝑎 EIN WENIG MATHEMATIK
  16. Action(0) Action(1) Action(2) Action(3) Action(4) Action(5) 0 0 0 0

    0 0 0 . . . . . . . . . . . . . . . . . . . . . 500 0 0 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . 1000 0 0 0 0 0 0 States Q-MATRIX Actions Initialisierung Nach dem Training Action(0) Action(1) Action(2) Action(3) Action(4) Action(5) 0 0 0 0 0 0 0 . . . . . . . . . . . . . . . . . . . . . 500 -2.466928 -3.457417 -4,176588 -0.192454 -6.210890 -0.295700 . . . . . . . . . . . . . . . . . . . . . 1000 0.446754 3.257648 6.854144 8.879366 7.275916 1.135062 Q-MATRIX Actions States Q-MATRIX
  17. APPROXIMATION DER Q-WERTE ▪ Agent startet in einem zufällig initialisierten

    Status ▪ Agent selektiert zufällig eine Aktion ▪ Agent beobachtet die entsprechende Belohnung und den darauf folgenden Status ▪ Der gesamte Vorgang der Exploration bis hin zur Belohnung wird als eine Episode bezeichnet Q-LEARNING
  18. BEISPIEL

  19. Agent Environment State(0) Action State(1) Reward? BESCHREIBUNG

  20. DEMO FLAPPY BIRD https://bit.ly/3QYybqF

  21. MODELL-BASIERTES Q-LEARNING ▪ Manchmal ist der Statusraum zu komplex, um

    ihn allumfänglich in einer Table abzubilden (z.B. beim autonomen Fahren) ▪ Generalisierung der Daten durch neuronale Netze ▪ Exploration der Umgebung findet nicht per Zufall statt ▪ Q-Werte werden – basierend auf dem aktuellen Status – durch ein Machine Learning Modell approximiert DEEP Q-LEARNING
  22. REINFORCEMENT LEARNING ▪ Ermöglicht die Lösung von komplexen Problemen ▪

    Noch mächtiger als Supervised Learning ▪ Entwicklung selbstlernender Systeme ▪ Aber auch komplex in der Implementierung FAZIT
  23. Q & A

  24. RESSOURCEN ▪ Project Bonsai RL Service in Microsoft Azure ▪

    AWS Deep Racer Simulationsumgebung für autonomes Fahren in AWS ▪ Artikel Top 20 Reinforcement Learning Libraries You Should Know ▪ 7 Reinforcement Learning GitHub Repositories To Give You Project Ideas