Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLPシリーズ「強化学習」輪読会 #5
Search
shimacos
January 14, 2020
Science
1
390
MLPシリーズ「強化学習」輪読会 #5
MLPシリーズ「強化学習」輪読会 での発表資料です。
5.3 説の「ブラックボックス生成モデル」に対するプランニングについてまとめました。
shimacos
January 14, 2020
Tweet
Share
More Decks by shimacos
See All by shimacos
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
1.3k
[関東Kaggler会 スポンサーセッション] LayerXの事業と機械学習でできること / kanto-kaggler-layerx
shimacos
0
1.1k
[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop
shimacos
3
780
LayerXにおける機械学習を活用したOCR機能の改善に関する取り組み / layerx-jsai-2023
shimacos
3
14k
Kaggle Days Championship予選全12回まとめ + TIPS
shimacos
0
5.6k
Kaggle Feedback Prizeコンペ 反省会
shimacos
5
3.1k
BQMLことはじめ
shimacos
2
1.6k
結局Kaggleって何を得られるの?
shimacos
8
7.2k
KDD2020 論文紹介
shimacos
0
1.3k
Other Decks in Science
See All in Science
汎用原子シミュレータMatlantis のご紹介
matlantis
0
130
HAS Dark Site Orientation
astronomyhouston
0
4.9k
Machine Learning for Materials (Lecture 6)
aronwalsh
0
420
【論文紹介】DocTr_ Document Transformer for Structured Information Extraction in Documents / iccv2023-doctr
yuya4
3
580
文系出身でも「アルゴリズム×数学」はスッキリ理解できた!話
wakamatsu_takumu
0
200
脳とAIは似ているか ― NeuroAI の挑戦
ykamit
9
6.8k
Snowflake上でRを使う: RStudioセットアップとShinyアプリケーションのデプロイ
ktatsuya
0
110
構造活性フォーラム2023-山﨑担当分
yamasakih
0
310
『データ可視化学入門』を PythonからRに翻訳した話
bob3bob3
1
360
「みんなの自然災害伝承碑」ワークショップ 2023|日本地図学会
fullfull
0
210
名古屋市立大学データサイエンス学部 夏のオープンキャンパス模擬授業20230818
ncu_ds
0
1k
効果検証入門に物申してみた_JapanR_2023
s1ok69oo
6
4.5k
Featured
See All Featured
How to Ace a Technical Interview
jacobian
272
22k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
6
1.5k
Building Adaptive Systems
keathley
31
1.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
7
990
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
The Art of Programming - Codeland 2020
erikaheidi
42
12k
Adopting Sorbet at Scale
ufuk
68
8.6k
Building an army of robots
kneath
300
41k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
21
1.6k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.1k
Transcript
MLPシリーズ「強化学習」輪読会 #5 「ブラックボックス生成モデル」に対するプランニング 2020/01/14, Naoto Shimakoshi
自己紹介 2 • 名前 • 島越 直⼈ (シマコシ ナオト) •
よくトリゴエと間違えられますがシマコシです。 • Twitter • @nt_4o54 • 経歴 • 機械系出⾝ • 某IT企業でデータサイエンティスト⼀年⽬ • 最近強化学習に興味あり • Kaggle • @shimacos (⾦ 1, ソロ銀 2, ソロ銅3) • Kaggle Master
5章の後半からを扱います 3
5.3 ブラックボックス生成モデルに対するプランニング 4 • ブラックボックス⽣成モデルとは • 任意の状態⾏動対の⼊⼒に対して報酬と次ステップの状態を出⼒するようなモデル ( ) •
シミュレータやドメイン知識、データから設計したものを扱う (確率的なものが多い) • プランニングのアプローチの種類 • 幅優先探索 • 動的計画法 (ref. Chapter 2), スパースサンプリング法 (確率的幅優先探索) • 深さ優先探索 • UCT法 -> モンテカルロ⽊探索
• 状態数に計算量が依存しないため、状態数が⾮常に⼤きいときに有効 • 各親ノードの⾏動に対して からN回サンプリングを⾏うことで⽊を成⻑させる • これを事前に決めたパラメータTだけ深さ⽅向に繰り返す • 後⽅から再帰的に状態価値関数を計算 •
注意点:動的計画法と異なり、⼊⼒された状態の最適⾏動しか求めない 5.3.1 スパースサンプリング法 5 親ノード 孫ノード ⼦ノード
• 元論⽂でスパースサンプリング法で求まる⽅策がε最適であるための条件が⽰されている。 • 条件: がMDP、報酬の上限値が既知 ( ) • 割引率を1に近づけるほどTとNを⼤きくしなければいけない。 •
割引率を1に近づけたい(先のことをなるべく考慮したい)問題設定には不向き 5.3.1 スパースサンプリング法のNとTの設定方法 6
• スパースサンプリング法と異なり、経験的に良さそうな⾏動を優先的に選択 • 深さ優先探索を⾏い、探索を⾏ったノードのみ⽊に追加する • 各ノードが滞在回数 を保持する • 多腕バンディットにおけるUCBI法に基づいた⾏動選択 •
同⼀の値があればランダムに選択 • Tはスパースサンプリング法によって決定することもある • 探索した経験に基づき価値関数を更新 • 常に平均値になるように更新を⾏う 5.3.2 UCT法 7 探索強度を定めるハイパラ ⼤きいほど探索回数が少ないノードを探索 (報酬の⼤きさ、割引率により決定)
• UCT1法 • 通常のUCT法は異なるタイムステップの状態を異なるものとして扱うが、これを同⼀の ものとして扱い、ノード間でmやqを共有する • その他のアプローチ • ⾏動価値関数を関数近似することで汎化性能を⾼める •
TD (λ)法のように にnステップ切断リターンを⽤いることで、推定分散を⼩さくする 5.3.2 UCT法の改良 8
• UCT法の⼀般化 • 意思決定系列のシミュレーションをRollout、Rolloutに⽤いる⽅策を既定⽅策と呼ぶ • 既定⽅策は多くの場合、ランダム⽅策 • UCT法とは異なり、根ノードに近い⼀部のノードのみ保持する • アルファ碁など多くのゲームAIの基礎
• アルゴリズム (http://blog.brainpad.co.jp/entry/2018/04/05/163000が分かりやすい) • ⽊探索:葉ノードに到達するまで状態観測と⾏動選択を繰り返す (UCT法が使われること が多い) • ノード展開:経験回数が閾値を超えた場合、新たに状態ノードとそれに対応する状態⾏動 対の⼦ノードを作成し、初期化 • 葉ノード評価:葉ノード以降について既定⽅策によるロールアウトを実施することで獲得 • ノード更新:葉ノードの評価結果を根ノードまで伝播させ、各ノードの統計量を更新 5.3.3 モンテカルロ木探索 (MCTS) 9