Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLPシリーズ「強化学習」輪読会 #5
Search
shimacos
January 14, 2020
Science
1
420
MLPシリーズ「強化学習」輪読会 #5
MLPシリーズ「強化学習」輪読会 での発表資料です。
5.3 説の「ブラックボックス生成モデル」に対するプランニングについてまとめました。
shimacos
January 14, 2020
Tweet
Share
More Decks by shimacos
See All by shimacos
LayerXにおけるAI・機械学習技術の活用と展望 / layerx-ai-jsai2024
shimacos
2
2.5k
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
1.6k
[関東Kaggler会 スポンサーセッション] LayerXの事業と機械学習でできること / kanto-kaggler-layerx
shimacos
0
1.2k
[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop
shimacos
3
920
LayerXにおける機械学習を活用したOCR機能の改善に関する取り組み / layerx-jsai-2023
shimacos
3
22k
Kaggle Days Championship予選全12回まとめ + TIPS
shimacos
0
6k
Kaggle Feedback Prizeコンペ 反省会
shimacos
5
3.3k
BQMLことはじめ
shimacos
2
1.7k
結局Kaggleって何を得られるの?
shimacos
8
7.3k
Other Decks in Science
See All in Science
Презентация программы магистратуры СПбГУ "Искусственный интеллект и наука о данных"
dscs
0
210
はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
takehikoihayashi
16
6.3k
山形とさくらんぼに関するレクチャー(YG-900)
07jp27
1
160
ICRA2024 速報
rpc
3
4.4k
Snowflakeによる統合バイオインフォマティクス
ktatsuya
0
200
Survival Under Fire: How to Stay Whole During Adversity
arthurdoler
PRO
0
120
Machine Learning for Materials (Lecture 5)
aronwalsh
0
610
拡散モデルの原理紹介
brainpadpr
3
3.3k
(Forkwell Library #48)『詳解 インシデントレスポンス』で学び倒すブルーチーム技術
scientia
2
1.2k
Introduction to Graph Neural Networks
joisino
4
1.7k
LIMEを用いた判断根拠の可視化
kentaitakura
0
170
Pandas 2 vs Polars vs Dask (PyDataGlobal 2023 December)
ianozsvald
0
660
Featured
See All Featured
Pencils Down: Stop Designing & Start Developing
hursman
118
11k
Fontdeck: Realign not Redesign
paulrobertlloyd
79
5.1k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
52k
The Power of CSS Pseudo Elements
geoffreycrofte
64
5.2k
How STYLIGHT went responsive
nonsquared
93
5k
Why Our Code Smells
bkeepers
PRO
332
56k
A Modern Web Designer's Workflow
chriscoyier
689
190k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
360
22k
Designing on Purpose - Digital PM Summit 2013
jponch
113
6.6k
Web Components: a chance to create the future
zenorocha
307
41k
Building an army of robots
kneath
301
42k
Making the Leap to Tech Lead
cromwellryan
127
8.7k
Transcript
MLPシリーズ「強化学習」輪読会 #5 「ブラックボックス生成モデル」に対するプランニング 2020/01/14, Naoto Shimakoshi
自己紹介 2 • 名前 • 島越 直⼈ (シマコシ ナオト) •
よくトリゴエと間違えられますがシマコシです。 • Twitter • @nt_4o54 • 経歴 • 機械系出⾝ • 某IT企業でデータサイエンティスト⼀年⽬ • 最近強化学習に興味あり • Kaggle • @shimacos (⾦ 1, ソロ銀 2, ソロ銅3) • Kaggle Master
5章の後半からを扱います 3
5.3 ブラックボックス生成モデルに対するプランニング 4 • ブラックボックス⽣成モデルとは • 任意の状態⾏動対の⼊⼒に対して報酬と次ステップの状態を出⼒するようなモデル ( ) •
シミュレータやドメイン知識、データから設計したものを扱う (確率的なものが多い) • プランニングのアプローチの種類 • 幅優先探索 • 動的計画法 (ref. Chapter 2), スパースサンプリング法 (確率的幅優先探索) • 深さ優先探索 • UCT法 -> モンテカルロ⽊探索
• 状態数に計算量が依存しないため、状態数が⾮常に⼤きいときに有効 • 各親ノードの⾏動に対して からN回サンプリングを⾏うことで⽊を成⻑させる • これを事前に決めたパラメータTだけ深さ⽅向に繰り返す • 後⽅から再帰的に状態価値関数を計算 •
注意点:動的計画法と異なり、⼊⼒された状態の最適⾏動しか求めない 5.3.1 スパースサンプリング法 5 親ノード 孫ノード ⼦ノード
• 元論⽂でスパースサンプリング法で求まる⽅策がε最適であるための条件が⽰されている。 • 条件: がMDP、報酬の上限値が既知 ( ) • 割引率を1に近づけるほどTとNを⼤きくしなければいけない。 •
割引率を1に近づけたい(先のことをなるべく考慮したい)問題設定には不向き 5.3.1 スパースサンプリング法のNとTの設定方法 6
• スパースサンプリング法と異なり、経験的に良さそうな⾏動を優先的に選択 • 深さ優先探索を⾏い、探索を⾏ったノードのみ⽊に追加する • 各ノードが滞在回数 を保持する • 多腕バンディットにおけるUCBI法に基づいた⾏動選択 •
同⼀の値があればランダムに選択 • Tはスパースサンプリング法によって決定することもある • 探索した経験に基づき価値関数を更新 • 常に平均値になるように更新を⾏う 5.3.2 UCT法 7 探索強度を定めるハイパラ ⼤きいほど探索回数が少ないノードを探索 (報酬の⼤きさ、割引率により決定)
• UCT1法 • 通常のUCT法は異なるタイムステップの状態を異なるものとして扱うが、これを同⼀の ものとして扱い、ノード間でmやqを共有する • その他のアプローチ • ⾏動価値関数を関数近似することで汎化性能を⾼める •
TD (λ)法のように にnステップ切断リターンを⽤いることで、推定分散を⼩さくする 5.3.2 UCT法の改良 8
• UCT法の⼀般化 • 意思決定系列のシミュレーションをRollout、Rolloutに⽤いる⽅策を既定⽅策と呼ぶ • 既定⽅策は多くの場合、ランダム⽅策 • UCT法とは異なり、根ノードに近い⼀部のノードのみ保持する • アルファ碁など多くのゲームAIの基礎
• アルゴリズム (http://blog.brainpad.co.jp/entry/2018/04/05/163000が分かりやすい) • ⽊探索:葉ノードに到達するまで状態観測と⾏動選択を繰り返す (UCT法が使われること が多い) • ノード展開:経験回数が閾値を超えた場合、新たに状態ノードとそれに対応する状態⾏動 対の⼦ノードを作成し、初期化 • 葉ノード評価:葉ノード以降について既定⽅策によるロールアウトを実施することで獲得 • ノード更新:葉ノードの評価結果を根ノードまで伝播させ、各ノードの統計量を更新 5.3.3 モンテカルロ木探索 (MCTS) 9