Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習への入り口 part1

強化学習への入り口 part1

More Decks by NearMe技術勉強会の発表資料です

Other Decks in Research

Transcript

  1. 0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue

  2. 1 目次
 1. 強化学習とは?
 2. 強化学習の適用事例
 3. ”報酬”と”価値”
 4. Q値の定義


  3. 2 1.強化学習とは?
 図に示すように環境との相互作用を通して、
 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法
 
 
 ※方策 : 状態を入力とし、行動を出力するモデル


  4. 3 2.強化学習の適用事例
 • ゲームAI
 • ロボット制御
 • 自動運転
 • コンテンツのレコメンド


    • 巡回セールスマン問題
 etc..

  5. 4 3.”報酬”と”価値”
 報酬とは、ある状態である行動をしたときの即時的な利益
 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和
 
 例えば..
 • 即日で10万円の報酬を貰える
 • 一日1000円の報酬を1年間貰える


    どちらの価値が高いか?
 (割引率によって変わる、仮に1なら?0なら?0.99なら?)

  6. 5 4.Q値の定義
 
 
 Q値とは、状態stで行動atを選択する価値(状態行動価値)
 1step後のQ値を将来の価値としている
 即時報酬
 α : 学習率


    γ : 割引率

  7. 6 次回
 • 強化学習への入り口 part2
 ◦ 方策の表現方法
 ◦ Q値をもとに方策の改善
 ◦

    探索と利用のトレードオフ

  8. 7 参考文献
 • Matlabによる強化学習


  9. 8 Thank you