強化学習への入り口 part1

0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue

1 目次  1. 強化学習とは？  2. 強化学習の適用事例  3. ”報酬”と”価値”  4. Q値の定義 

2 １．強化学習とは？  図に示すように環境との相互作用を通して、  貰える報酬が最大となるような方策(Policy)を学習する機械学習手法      ※方策 : 状態を入力とし、行動を出力するモデル 

3 ２．強化学習の適用事例  • ゲームAI  • ロボット制御  • 自動運転  • コンテンツのレコメンド 
• 巡回セールスマン問題  etc.. 

4 ３．”報酬”と”価値”  報酬とは、ある状態である行動をしたときの即時的な利益  価値とは、将来的に貰えるであろう報酬の割引現在価値の総和    例えば..  • 即日で10万円の報酬を貰える  • 一日1000円の報酬を1年間貰える 
どちらの価値が高いか？  （割引率によって変わる、仮に1なら?0なら？0.99なら？） 

5 ４．Q値の定義      Q値とは、状態stで行動atを選択する価値（状態行動価値）  1step後のQ値を将来の価値としている  即時報酬  α : 学習率 
γ : 割引率 

6 次回  • 強化学習への入り口 part2  ◦ 方策の表現方法  ◦ Q値をもとに方策の改善  ◦
探索と利用のトレードオフ 

7 参考文献  • Matlabによる強化学習 

8 Thank you

強化学習への入り口 part1

強化学習への入り口 part1

NearMeの技術発表資料です
PRO

More Decks by NearMeの技術発表資料です

Other Decks in Research

Featured

Transcript

0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue

1 目次  1. 強化学習とは？  2. 強化学習の適用事例  3. ”報酬”と”価値”  4. Q値の定義

2 １．強化学習とは？  図に示すように環境との相互作用を通して、  貰える報酬が最大となるような方策(Policy)を学習する機械学習手法      ※方策 : 状態を入力とし、行動を出力するモデル

3 ２．強化学習の適用事例  • ゲームAI  • ロボット制御  • 自動運転  • コンテンツのレコメンド

5 ４．Q値の定義      Q値とは、状態stで行動atを選択する価値（状態行動価値）  1step後のQ値を将来の価値としている  即時報酬  α : 学習率

6 次回  • 強化学習への入り口 part2  ◦ 方策の表現方法  ◦ Q値をもとに方策の改善  ◦

7 参考文献  • Matlabによる強化学習

8 Thank you