Slide 1

Slide 1 text

0 応用から学ぶ強化学習 2023-06-02 第46回NearMe技術勉強会 大神卓也

Slide 2

Slide 2 text

1 応用から学ぶ強化学習


Slide 3

Slide 3 text

2 強化学習 “相互作用を伴う 目標指向型の学習” • エージェントが環境との相互作用を通じて学習 • 環境から得られる報酬の最大化を目指す

Slide 4

Slide 4 text

3 “相互作用を伴う 目標指向型の学習” のフレームワーク エージェント: 意思決定(行動)を行う 環境: 行動をもとに次状態と報酬を返す マルコフ決定過程(Markov Decision Process, MDP) 報酬 行動 状態 エージェント 環境

Slide 5

Slide 5 text

4 マルコフ決定過程 “相互作用を伴う 目標指向型の学習” のフレームワーク 将来にわたって得られる累積報酬を最大化する 報酬 行動 状態 エージェント 環境

Slide 6

Slide 6 text

5 教師あり学習との違い • nステップ連続の行動を最適化する • 教師データとの差ではないく,報酬を目的としている

Slide 7

Slide 7 text

6 応用事例


Slide 8

Slide 8 text

7 応用事例 • ロボットの制御 • Neural Architecture Search • 自動運転 • 家のエネルギーマネジメント

Slide 9

Slide 9 text

8 ロボットの制御 QT-opt [Kalashnikov+, 2018] • さまざまな物体を掴むロボット

Slide 10

Slide 10 text

9 ロボットの制御 状態S カメラの画像 グリッパーが開いているか 行動A グリッパーの位置や角度の差分 グリッパーを閉じる/開ける 報酬R 物体を掴めたら+1

Slide 11

Slide 11 text

10 Neural Architecture Search • ニューラルネットワークは構造によって性能が変わる → 人間が試行錯誤してデザイン,高コスト • 強化学習で性能が高いアーキテクチャを探す[Zoph+, 2017]

Slide 12

Slide 12 text

11 Neural Architecture Search 状態S 固定 行動A ネットワークのアーキテクチャを表すテキスト 報酬R 検証セットにおける性能

Slide 13

Slide 13 text

12 自動運転 操縦の部分の制御に強化学習が利用

Slide 14

Slide 14 text

13 自動運転 状態S マップ上の位置,障害物,速度,レーン,信号, 交通法規,信号の状態,履歴 行動A ハンドルの角度,アクセル,ブレーキ,ギアチェンジ 報酬R 移動距離,速度,交通規則の遵守,安全性

Slide 15

Slide 15 text

14 家のエネルギーマネジメント ソーラーパネル,電気自動車のある家庭 電気料金や発電量が時間帯によって変わる 家電の使用量やタイミングを制御して • 電気料金を削減する • 住人が不便にならないようにする (例)家電をあまり使っていない時間にEVを充電

Slide 16

Slide 16 text

15 家のエネルギーマネジメント 状態S • 電気料金 • 太陽光パネルの発電量 行動A • エアコン 強さ(1, … P) • EV 充電量(1, …P) • 洗濯機 使うか使わないか(0/1) 報酬R • (家庭の電気料金) + (不便さ) 6-9時 9-12時 … 電気料金 (円/kWh) 50円 300円 発電量 (kWh) 80W 200W

Slide 17

Slide 17 text

16 教師あり学習との違い(再掲) • nステップ連続の行動を最適化する • 教師データとの差ではないく,報酬を目的としている

Slide 18

Slide 18 text

17 マルコフ決定過程のポイント • エージェントと環境の境界は • エージェントが制御可能な限界 • 報酬は「何を達成してほしいか」 • ≠ 「どう達成するか」

Slide 19

Slide 19 text

18 強化学習による信号制御


Slide 20

Slide 20 text

19 学習前

Slide 21

Slide 21 text

20 学習後

Slide 22

Slide 22 text

21 強化学習の枠組み
 報酬 行動 状態 エージェント 将来的にわたって得られる報酬を最大化する
 環境

Slide 23

Slide 23 text

22 信号制御のマルコフ決定過程 状態S 各方向の人数,車の速度,人の待ち時間 など 行動A 青にする方向(南北,東西,歩行者信号) 報酬R 人の待ち時間 と車の待ち時間の合計

Slide 24

Slide 24 text

23 麻雀AI


Slide 25

Slide 25 text

24 麻雀AIの作りかた
 1. 上級者の行動を模倣するモデルの作成
 (教師あり学習)
 
 2. 自己対戦によるアップデート
 (強化学習)


Slide 26

Slide 26 text

25 麻雀AIのマルコフ決定過程 状態S 麻雀の盤面情報 行動A どの牌を捨てるか 報酬R 最終的な勝敗

Slide 27

Slide 27 text

26 26 ネット麻雀上位1.2%の七段に到達!!
 (https://tenhou.net/ ranking.htmlを元に作成)


Slide 28

Slide 28 text

27 参考文献 Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, et al. Qt-opt: Scalable deep rein-forcement learning for vision-based robotic manipulation. arXiv preprint arXiv:1806.10293, 2018. Barret Zoph and Quoc Le. Neural architecture search with reinforcement learning. In International Conference on Learning Representations, 2017. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A Al Sallab, Senthil Yo-gamani, and Patrick P´erez. Deep reinforcement learning for autonomous driving: A survey. IEEE Transactions on Intelligent Transportation Systems, 23(6):4909–4926, 2021. Xu Xu, Youwei Jia, Yan Xu, Zhao Xu, Songjian Chai, and Chun Sing Lai. A multi-agent rein-forcement learning-based data-driven method for home energy management. IEEE Transactions on Smart Grid, 11(4):3201–3211, 2020. https://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf Sutton, R. S., & Barto, A. G. Reinforcement Learning, second edition: An Introduction (2018) Bradford Books. (菊池 悠太, 鮫島 和行, 陣内 佑, 高橋 将文, 谷口 尚平, 藤田 康博, 前田 新一, 松嶋 達也, 奥村 エルネスト純, 鈴木 雅大, 松尾 豊, 三上 貞芳, 山川 宏 今井 翔太, 川尻 亮真 (訳). (2020). 強化学習 第2版 森 北出版) 斎藤康毅 (2022). ゼロから作るDeep Learning➍ オライリージャパン

Slide 29

Slide 29 text

28 Thank you