Slide 14
Slide 14 text
2.2.3 ベイズ主義的アプローチ
● 問題が完全に未知であるという仮定は現実的ではない
○ 通った道は戻れるし、 T字路など似た構造がなんども登場層
● ベイズ主義的アプローチ:「不確かさ」を確率論のモデルを利用して取り扱う
● 環境がk次元のパラメータベクトルに寄って決まるMDP P_θとして記述される
○ ありうる環境の集合の中でどれがありそうかを確率分布で記述したものをベイズ環境モデルと呼ぶ
○ ベイズ環境モデルで表された環境に対する強化学習をベイジアン強化学習と呼ぶ