für KI-getriebene Softwareentwicklung. 2 Tage geballte Wissensvermittlung mit Jörg Neumann, Neno Loje & Special Guests. Jörg Neumann MVP AI Platform Neno Loje MVP Developer Technologies www.AIDevCamp.de
Umgebung zu einem best. Status eine Action aus und erhält eine Reaktion Die Reaktion der Umgebung auf die Aktion beeinflusst die Wahl der Aktion im nächsten Status Entscheidungsmatrix FUNKTIONSWEISE
des Temporal-Different-Learnings Benannt nach der Bewertungsfunktion, der Q-Function: u ׂ ¸ ְ � †׃ Anwendung bei kleinen Aktions- und Zustandsräumen Q-LEARNING
einer Aktion a im Status s Die Nutzenwerte werden in der sog. Q-Matrix gespeichert Dimensionen der Matrix: Anzahl der möglichen Stati und Aktionen Beim Training versucht der Agent, die Q-Werte der Q-Matrix durch Exploration zu approximieren, um diese später als Entscheidungsregel zu nutzen Nach der Lernphase wählt der Agent in jedem Status diejenige Aktion mit dem höchsten Q-Wert aus Q-FUNCTION
Status Agent selektiert zufällig eine Aktion Agent beobachtet die entsprechende Belohnung und den darauf folgenden Status Der gesamte Vorgang der Exploration bis hin zur Belohnung wird als Episode bezeichnet Q-LEARNING
ihn allumfänglich in einer Table abzubilden (z.B. beim autonomen Fahren) Generalisierung der Daten durch neuronale Netze Exploration der Umgebung findet nicht per Zufall statt Q-Werte werden – basierend auf dem aktuellen Status – durch ein Machine Learning Modell approximiert DEEP Q-LEARNING
AWS Deep Racer Simulationsumgebung für autonomes Fahren in AWS Artikel Top 20 Reinforcement Learning Libraries You Should Know 7 Reinforcement Learning GitHub Repositories To Give You Project Ideas