Upgrade to Pro — share decks privately, control downloads, hide ads and more …

これからの教科学習 - Gunosy データマイニング研究会 #117

Yosuke Abe
April 04, 2017

これからの教科学習 - Gunosy データマイニング研究会 #117

Yosuke Abe

April 04, 2017
Tweet

Other Decks in Technology

Transcript

  1. 楽観的初期値法 μ' i が最大の腕を選ぶ r sup : 報酬の上界 K: 定数

    あまり引いていない腕の結果がよく見えるように下駄をはかせる 最初は探索多め、時間ステップの経過とともに利用が多くなる
  2. 1.2.2 マルコフ決定過程による時間発展の記述 以下の要素によって記述される確率過程 状態空間 S: すべての状態からなる集合 行動空間 A(s): ある状態sにおける選択可能なすべての行動 初期状態分布

    P 0 状態遷移確率 P(s' | s, a): 状態sにおいて行動aを決定したとき、s'に遷移する確率 報酬関数 r(s, a, s'): 確率分布として定義することもあるが、ここでは一意に定まる関数 とする
  3. マルコフ性の由来 どこがマルコフ? t+1時間ステップにおける状態S t+1 はtステップ目の状態S t とその状態で選ばれた行動を A t としたとき、

    S t+1 ~ P(s' | S t , A t ) によって定まる。 S t+1 はS t-1 やA t-1 に依存せず、直前の状態のみにより決まる