Slide 60
Slide 60 text
DQNの⼯夫 / 経験再⽣(Experience Replay)
n リプレイバッファ(Replay Buffer)と呼ばれる機構に,環境内を探索して得た複数の
経験(𝑠"
, 𝑎"
, 𝑟"#$
, 𝑠"#$
)を保存し,深層ニューラルネットワークのバッチ学習を際に,
このバッファからランダムに複数の経験を選択してミニバッチ学習=経験再⽣を⾏う
n ここまで扱ってきたQ学習やSARSAなどの強化学習では,⼀度環境内で⾏動して得た
経験を⼀度だけのQ値の更新に使っていたが,DQNではすぐにQ値の更新に使わず,保存しておい
て後から使⽤
n 今までの強化学習における経験の使い⽅の問題
1. ⼀般的な確率的勾配降下法(SGD)で前提としているサンプル間の独⽴性が,時系列的な相
関によって壊れる
2. 極めてレアな経験があったとしても,それを後で使えず捨ててしまう
60
𝑠6
, 𝑎6
𝑟7
, 𝑠7
𝑠7
, 𝑎7
𝑟8
, 𝑠8
・・・
𝑠4
, 𝑎4
, 𝑟4$6
, 𝑠4$6
経験(𝑠"
, 𝑎"
, 𝑟"#$
, 𝑠"#$
)
⾏動:𝑎!
(ネットワークの出⼒から選択)
次の状態:𝑠!"#
(次の時刻のネットワークの⼊⼒) 環境
深層ニューラルネット
経験再⽣
リプレイバッファからランダムサンプ
リングした経験のミニバッチから損失
𝐿 𝜃 = 𝔼[ 𝑌! − 𝑄 𝑠!, 𝑎!; 𝜃 $
]
を計算して学習
リプレイバッファ