DEFINITION
▪ Q-Funktion: Q(s,a)
▪ Beschreibt den erwarteten Nutzen Q einer Aktion a im Status s
▪ Die Nutzenwerte werden in der sog. Q-Matrix gespeichert
▪ Dimensionen der Matrix: Anzahl der möglichen Stati und Aktionen
▪ Beim Training versucht der Agent, die Q-Werte der Q-Matrix durch Exploration zu
approximieren, um diese später als Entscheidungsregel zu nutzen
▪ Nach der Lernphase wählt der Agent in jedem Status diejenige Aktion mit dem
höchsten Q-Wert aus
Q-FUNCTION