Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習への入り口 part1

強化学習への入り口 part1

More Decks by NearMeの技術発表資料です

Other Decks in Research

Transcript

  1. 0
    強化学習への入り口 part1
    2022-07-01 第4回NearMe技術勉強会
    Takuma Kakinoue

    View full-size slide

  2. 1
    目次

    1. 強化学習とは?

    2. 強化学習の適用事例

    3. ”報酬”と”価値”

    4. Q値の定義


    View full-size slide

  3. 2
    1.強化学習とは?

    図に示すように環境との相互作用を通して、

    貰える報酬が最大となるような方策(Policy)を学習する機械学習手法



    ※方策 : 状態を入力とし、行動を出力するモデル


    View full-size slide

  4. 3
    2.強化学習の適用事例

    ● ゲームAI

    ● ロボット制御

    ● 自動運転

    ● コンテンツのレコメンド

    ● 巡回セールスマン問題

    etc..


    View full-size slide

  5. 4
    3.”報酬”と”価値”

    報酬とは、ある状態である行動をしたときの即時的な利益

    価値とは、将来的に貰えるであろう報酬の割引現在価値の総和


    例えば..

    ● 即日で10万円の報酬を貰える

    ● 一日1000円の報酬を1年間貰える

    どちらの価値が高いか?

    (割引率によって変わる、仮に1なら?0なら?0.99なら?)


    View full-size slide

  6. 5
    4.Q値の定義



    Q値とは、状態stで行動atを選択する価値(状態行動価値)

    1step後のQ値を将来の価値としている

    即時報酬

    α : 学習率

    γ : 割引率


    View full-size slide

  7. 6
    次回

    ● 強化学習への入り口 part2

    ○ 方策の表現方法

    ○ Q値をもとに方策の改善

    ○ 探索と利用のトレードオフ


    View full-size slide

  8. 7
    参考文献

    ● Matlabによる強化学習


    View full-size slide