$30 off During Our Annual Pro Sale. View Details »

Lernen durch Schmerzen! Mit Reinforcement Learning selbstlernende Systeme entwickeln

Jörg Neumann
November 10, 2022

Lernen durch Schmerzen! Mit Reinforcement Learning selbstlernende Systeme entwickeln

Jörg Neumann

November 10, 2022
Tweet

More Decks by Jörg Neumann

Other Decks in Technology

Transcript

  1. LERNEN DURCH SCHMERZEN!
    Mit Reinforcement Learning selbstlernende Systeme entwickeln
    JÖRG NEUMANN

    View Slide

  2. JÖRG NEUMANN
    THEMEN
    ▪ Frontend Technologies
    ▪ AI
    ▪ Mobile Development
    ▪ Consulting, Coaching, Training
    KONTAKT
    ▪ Mail: [email protected]
    ▪ Twitter: @JoergNeumann

    View Slide

  3. WANN BRAUCHT MAN MACHINE LEARNING?
    Menge Komplexität Personalisierung Selbstlernend

    View Slide

  4. Eingabe Training Ergebnis
    SUPERVISED LEARNING

    View Slide

  5. Eingabe Antwort Feedback Lernen
    REINFORCEMENT LEARNING

    View Slide

  6. Robotics Trading Marketing Strategien
    EINSATZFÄLLE

    View Slide

  7. E-Commerce Bots Selbstfahrende Autos
    EINSATZFÄLLE

    View Slide

  8. ▪ Machine-Learning-Methode
    ▪ Ein Agent interagiert mit einer Umgebung
    ▪ Lernt dabei selbständig auf Basis des Belohnungsprinzips
    WAS IST REINFORCEMENT LEARNING?

    View Slide

  9. Agent Environment State Action Reward
    Ein Agent führt in einer Umgebung zu einem best. Status eine Action aus und erhält eine Reaktion
    Die Reaktion der Umgebung auf die Aktion beeinflusst die Wahl der Aktion im nächsten Status
    Entscheidungsmatrix
    FUNKTIONSWEISE

    View Slide

  10. DEFINITION
    ▪ Entwickelt 1989 von Chris Watkins
    ▪ Eine Variante des Temporal-Different-Learnings
    ▪ Benannt nach der Bewertungsfunktion, der Q-Function: Q(s, a)
    ▪ Anwendung bei kleinen Aktions- und Zustandsräumen
    Q-LEARNING

    View Slide

  11. DEFINITION
    ▪ Q-Funktion: Q(s,a)
    ▪ Beschreibt den erwarteten Nutzen Q einer Aktion a im Status s
    ▪ Die Nutzenwerte werden in der sog. Q-Matrix gespeichert
    ▪ Dimensionen der Matrix: Anzahl der möglichen Stati und Aktionen
    ▪ Beim Training versucht der Agent, die Q-Werte der Q-Matrix durch Exploration zu
    approximieren, um diese später als Entscheidungsregel zu nutzen
    ▪ Nach der Lernphase wählt der Agent in jedem Status diejenige Aktion mit dem
    höchsten Q-Wert aus
    Q-FUNCTION

    View Slide

  12. erwarteter
    Nutzen
    Aktion
    Status
    Learning
    Rate
    Current Value
    Discount
    Factor
    Reward
    Future Value
    Estimate
    𝑄 𝑠𝑡
    , 𝑎𝑡
    = 1 − 𝛼 𝑄 𝑠𝑡
    , 𝑎𝑡
    + 𝛼 𝑟𝑡
    + 𝛾 𝑚𝑎𝑥𝑄 𝑠𝑡+1
    , 𝑎
    EIN WENIG MATHEMATIK

    View Slide

  13. APPROXIMATION DER Q-WERTE
    ▪ Agent startet in einem zufällig initialisierten Status
    ▪ Agent selektiert zufällig eine Aktion
    ▪ Agent beobachtet die entsprechende Belohnung und den darauf folgenden Status
    ▪ Der gesamte Vorgang der Exploration bis hin zur Belohnung wird als Episode
    bezeichnet
    Q-LEARNING

    View Slide

  14. Action(0) Action(1) Action(2) Action(3) Action(4) Action(5)
    0 0 0 0 0 0 0
    . . . . . . .
    . . . . . . .
    . . . . . . .
    500 0 0 0 0 0 0
    . . . . . . .
    . . . . . . .
    . . . . . . .
    1000 0 0 0 0 0 0
    States
    Q-MATRIX
    Actions
    Initialisierung
    Nach dem Training
    Action(0) Action(1) Action(2) Action(3) Action(4) Action(5)
    0 0 0 0 0 0 0
    . . . . . . .
    . . . . . . .
    . . . . . . .
    500 -2.466928 -3.457417 -4,176588 -0.192454 -6.210890 -0.295700
    . . . . . . .
    . . . . . . .
    . . . . . . .
    1000 0.446754 3.257648 6.854144 8.879366 7.275916 1.135062
    Q-MATRIX
    Actions
    States
    Q-MATRIX

    View Slide

  15. BEISPIEL

    View Slide

  16. Agent
    Environment
    State(0)
    Action
    State(1)
    Reward?
    BESCHREIBUNG

    View Slide

  17. DEMO
    FLAPPY BIRD
    https://bit.ly/3QYybqF

    View Slide

  18. MODELL-BASIERTES Q-LEARNING
    ▪ Manchmal ist der Statusraum zu komplex, um ihn allumfänglich in einer Table
    abzubilden (z.B. beim autonomen Fahren)
    ▪ Generalisierung der Daten durch neuronale Netze
    ▪ Exploration der Umgebung findet nicht per Zufall statt
    ▪ Q-Werte werden – basierend auf dem aktuellen Status – durch ein
    Machine Learning Modell approximiert
    DEEP Q-LEARNING

    View Slide

  19. REINFORCEMENT LEARNING
    ▪ Ermöglicht die Lösung von komplexen Problemen
    ▪ Noch mächtiger als Supervised Learning
    ▪ Entwicklung selbstlernender Systeme
    ▪ Aber auch komplex in der Implementierung
    FAZIT

    View Slide

  20. Q & A

    View Slide

  21. RESSOURCEN
    ▪ Project Bonsai
    RL Service in Microsoft Azure
    ▪ AWS Deep Racer
    Simulationsumgebung für autonomes Fahren in AWS
    ▪ Artikel
    Top 20 Reinforcement Learning Libraries You Should Know
    ▪ 7 Reinforcement Learning GitHub Repositories To Give You Project Ideas

    View Slide