Slide 19
Slide 19 text
次の状態で理想的な遷移をした場合に期待される報酬と,
実際の遷移で期待される報酬の差を最小化
学習方法(Q学習) 19
• 𝑬 𝒔𝒕
, 𝒂𝒕
: 損失関数
○ 学習を安定させるため,𝐸の絶対値が1未満の場合は𝐸! ,それ以外
では 𝐸 を損失とする
• 𝒔𝒕
: 現在の状態(たどってきたノードの情報)
• 𝒂𝒕
: 採用した行動(選択したエッジ)
• 𝒓𝒕"𝟏
: 次の状態へ遷移するときに得る報酬
• 𝑸: 行動価値関数
○ 行動価値関数: 将来的に得られることが期待される報酬を表す関数
○ 𝑚𝑎𝑥"
𝑄: 理想的な行動𝑎を採用したときに得られる𝑄
𝐸 𝑠1
, 𝑎1
= 𝑟123
+ 𝑚𝑎𝑥4
𝑄 𝑠123
, 𝑎1
− 𝑄 𝑠1
, 𝑎1
実際の期待報酬
次の状態での理想的な期待報酬