Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
みんな大好き強化学習
Search
貞松政史
July 26, 2022
Technology
0
820
みんな大好き強化学習
(2022年7月開催のDevelopersIO2022ビデオセッションの一つです)
みんな大好きなのにあまり語られることのない強化学習について語ります。概要的なものはすっ飛ばして基礎理論の話をします。
貞松政史
July 26, 2022
Tweet
Share
More Decks by 貞松政史
See All by 貞松政史
20230904_GoogleCloudNext23_Recap_AI_ML
sadynitro
0
540
Foundation Model全盛時代を生きるAI/MLエンジニアの生存戦略
sadynitro
0
660
Amazon SageMakerが存在しない世界線 のAWS上で実現する機械学習基盤
sadynitro
0
100
Amazon SageMakerが存在しない世界線のAWS上で実現する機械学習基盤
sadynitro
0
1.1k
機械学習エンジニアはMLOpsの夢を見るか?
sadynitro
0
1k
AWSのAIサービスインテグレーション - AIの仕組みを活用した課題解決
sadynitro
0
910
実践Amazon SageMaker - 全体像からユースケースまで
sadynitro
0
2.2k
Amazon Forecast Getting Start
sadynitro
0
1.1k
Amazon Forecast Getting Start
sadynitro
0
1.4k
Other Decks in Technology
See All in Technology
現実世界の事象から学ぶSOLID原則
h0r15h0
25
11k
エンジニアブランディングチームの KPI / KPI's of engineer branding team
chaspy
1
140
バッチ処理のSLOをどう設計するか
rynsuke
7
590
単回帰分析について数式を追いながら実装してみた
kentaitakura
0
510
CI/CDがあたりまえの今の時代にAPIテスティングツールに求められていること / CI/CD Test Night #7
k1low
12
3.1k
期待しすぎずに取り組む両面 TypeScript
shozawa
4
580
任意コード実行の原理
ffri
0
190
ハイパフォーマンスな組織をつくるための開発生産性の考え方 / developer-productivity-high-performer-link-and-motivation
lmi
3
280
AFTを運用していたらAWS Configの課金が急増していた件
msato
0
120
LLM + RAG を使った SORACOM Support Bot の裏側の歴史
soracom
PRO
1
650
初心者が行く!サーバレスWebアプリ開発の道
nagaharutogawa
0
460
大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み
kunishou
1
180
Featured
See All Featured
In The Pink: A Labor of Love
frogandcode
137
21k
Six Lessons from altMBA
skipperchong
19
2.9k
Testing 201, or: Great Expectations
jmmastey
27
6.3k
Fireside Chat
paigeccino
19
2.6k
Fontdeck: Realign not Redesign
paulrobertlloyd
75
4.8k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
19
1.6k
Producing Creativity
orderedlist
PRO
335
39k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
153
14k
From Idea to $5000 a Month in 5 Months
shpigford
376
45k
Navigating Team Friction
lara
177
13k
A Philosophy of Restraint
colly
195
15k
Building an army of robots
kneath
300
41k
Transcript
みんな⼤好き強化学習
2 ですよね︖ 好きですよね︖強化学習
3 でも… でもあんまり語られることがない…
4 Qiitaのタグで⽐較 https://qiita.com/tags/%e5%bc%b7%e5 %8c%96%e5%ad%a6%e7%bf%92 https://qiita.com/tags/%e6%a9%9f%e6% a2%b0%e5%ad%a6%e7%bf%92
5 語りましょう 強化学習について語ります
みんな⼤好き (なのにあまり語られない) 強化学習 (について語る)
7 どうぞよろしく スピーカー名 − さだまつ 所属 − データアナリティクス事業本部 − インテグレーション部
− 機械学習チーム ロール − マネージャー
8 おしながき • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース
• ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
9 位置付けと基本構成 • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース
• ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
10 強化学習の位置付け ⼈⼯知能 (Artificial Intelligence, AI) 機械学習 (Machine Learning, ML)
教師あり学習 教師なし学習 強化学習 NeuralNetwork DeepLearning
11 強化学習の基本構成
12 強化学習の強み • 環境に対して学習 • ⼀連の⾏動を獲得 • 1度の⾏動に対する評価尺度の定義が難しい問題 • 未知の環境に対する適応
13 強化学習の適⽤領域 • ゲームAI • 機械の動作制御 • ⾃動運転 • ロボットのアーム制御や歩⾏制御
など • 対話型インターフェースの最適化 • 商品・コンテンツの推薦(レコメンド) • スマートスピーカーやチャットボットの応答 など
14 解法の種類 • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース
• ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
15 強化学習による問題解決 初期状態→⽬標状態 = 1エピソード 1エピソード全体で得られる報酬 = 累積報酬 を最⼤化することが⽬的 基本的に
⾼い報酬=良い⾏動 累積報酬の最⼤化=良い⾏動の積み重ね によって問題を解決する(⾏動を獲得する)
16 ⽅策関数 状態sを⼊⼒として⾏動aを出⼒(選択)する関数 決定的⽅策 確率的⽅策 状態 ⾏動
17 価値関数 状態価値関数 (Bellman⽅程式) ⾏動価値関数 (Q値) 状態 s ⾏動 a
⽅策 π 割引率 γ ステップ t
18 強化学習の解法 https://qiita.com/shionhonda/items/ec05aade07b5bea78081 価値ベース ⽅策ベース
19 強化学習の解法 価値ベース • 大きく分けて, Q-Learningに基づくアプローチとSARSAに基 づくアプローチの2種類 • 方策関数 π
を固定し, 価値関数 Q のみを学習によって改善 ⽅策ベース • 方策関数 π を直接改善 • 行動空間が連続な場合や多変数の場合に使用
20 価値ベースの解法 Q-Learning SARSA
21 ⽅策ベースの解法 Policy Gradient REINFORCE
22 ニューラルネットワークおよび深層学習の適⽤ • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース
• ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
23 ニューラルネットワークの適⽤ https://jp.mathworks.com/discovery/convolutional-neural-network-matlab.html 画像分類に対するCNNの適⽤
24 ニューラルネットワークを適⽤するメリット https://aws.amazon.com/jp/builders-flash/202105/accelerate-deepracer-model-development/ ⼈間が実際に観測している「状態」に 近いデータ(画像や信号等)を エージェントの学習に利⽤可能 ex. AWS DeepRacer
25 深層学習を⽤いた解法 Deep Q-Network (DQN) 状態評価に深層学習を適⽤ CNNを利⽤するだけでなく以下のアイデアで学習を安定させる • Experience Replay
• ⼀旦経験した状態/⾏動/報酬/遷移先をメモリーに蓄積し、学習を⾏う際は そこからランダムサンプリングして利⽤する • Fixed Target Q-Network • データからいくつかサンプルを抽出してミニバッチを作成し、その学習中 は期待値の計算に利⽤するθは固定する • Clipping • 与える報酬を固定する (正なら1、負なら-1 など)
26 弱点と対策 • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース
• ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
27 強化学習の弱点 • サンプル効率が悪い • 学習に膨⼤なデータが必要 • データ量に⽐例して学習時間がかかる • 過学習しやすい
• 局所最適(ローカルトラップ)にハマりやすい • 再現性が低い • 同⼀の⼿法でも学習が収束した時点のモデル同⼠で獲得 報酬に差異が発⽣する
28 弱点への対策 • テスト可能なモジュール化 • エージェント、学習器、オブザーバーなど • 実験管理 (ログ出⼒) •
ハイパーパラメータや報酬に関する値、⾏動分布など • 学習パイプライン (学習の⾃動化) • アルゴリズムの改良 • 転移学習、模倣学習
29 まとめ
30 まとめ • ⼀連の⾏動や未知の環境に対して有効 • 環境に対する価値や⽅策を最適化することで学習 • ニューラルネットワーク(深層学習)を利⽤すること で⼈間が実際に観測している状態を利⽤可能 •
幾つかの弱点があるものの、アルゴリズムの改良を 含めた対策についても研究されている
None