Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習への入り口 part2

強化学習への入り口 part2

More Decks by NearMeの技術発表資料です

Other Decks in Technology

Transcript

  1. 0
    強化学習への入り口 part2
    2022-08-26 第11回NearMe技術勉強会
    TakumaKakinoue

    View full-size slide

  2. 1
    目次
    ● 前回までの内容
    ● 探索と利用のトレードオフ問題
    ● 探索と利用のトレードオフを解決するアルゴリズム

    View full-size slide

  3. 2
    前回までの内容
    ● 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する
    機械学習手法の一種
    ● 報酬は即時的なもの,価値は将来も考慮したもの
    ● ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される

    View full-size slide

  4. 3
    探索と利用のトレードオフ問題
    ● 強化学習では,探索と利用のバランスを上手く調節するのが肝!
    ○ 探索が不十分だと,広域的な最適解が得られない可能性がある
    ○ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある
    ● (例)多腕バンディット問題
    ○ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム
    ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦
    略が良いか
    ○ パッと思いつく戦略としては,
    ■ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索)
    ■ その後,当選確率が最も高かったアームを引き続ける(利用)
    ○ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら,
    その後,そのアームは引かれないことに...

    View full-size slide

  5. 4
    探索と利用のトレードオフを解決するアルゴリズム
    ● 行動選択にランダム性を組み込む系
    ○ ε-greedy法
    ■ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択
    ○ 探索ノイズ(ex. OUノイズ,ガウスノイズ)
    ■ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える
    ○ Softmax方策
    ■ Q値の分布に応じた確率分布に基づくランダムな行動選択
    ● 報酬関数に探索する価値を組み込む系
    ○ Soft-Q学習
    ■ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化
    ○ 好奇心アルゴリズム
    ■ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む

    View full-size slide

  6. 5
    参考資料
    ● MATLABおよびSimulinkによる強化学習 ebook

    View full-size slide