Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLPシリーズ「強化学習」輪読会 #5
Search
shimacos
January 14, 2020
Science
1
440
MLPシリーズ「強化学習」輪読会 #5
MLPシリーズ「強化学習」輪読会 での発表資料です。
5.3 説の「ブラックボックス生成モデル」に対するプランニングについてまとめました。
shimacos
January 14, 2020
Tweet
Share
More Decks by shimacos
See All by shimacos
LayerXにおけるAI・機械学習技術の活用と展望 / layerx-ai-jsai2024
shimacos
2
3.1k
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
1.8k
[関東Kaggler会 スポンサーセッション] LayerXの事業と機械学習でできること / kanto-kaggler-layerx
shimacos
0
1.3k
[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop
shimacos
3
1k
LayerXにおける機械学習を活用したOCR機能の改善に関する取り組み / layerx-jsai-2023
shimacos
3
24k
Kaggle Days Championship予選全12回まとめ + TIPS
shimacos
0
6.4k
Kaggle Feedback Prizeコンペ 反省会
shimacos
5
3.4k
BQMLことはじめ
shimacos
2
1.8k
結局Kaggleって何を得られるの?
shimacos
8
7.4k
Other Decks in Science
See All in Science
Transformers are Universal in Context Learners
gpeyre
0
550
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
340
いまAI組織が求める企画開発エンジニアとは?
roadroller
2
1.3k
ウェーブレットおきもち講座
aikiriao
1
790
Celebrate UTIG: Staff and Student Awards 2024
utig
0
460
ほたるのひかり/RayTracingCamp10
kugimasa
0
210
拡散モデルの原理紹介
brainpadpr
3
4.8k
The thin line between reconstruction, classification, and hallucination in brain decoding
ykamit
1
950
統計的因果探索の方法
sshimizu2006
1
1.2k
機械学習を支える連続最適化
nearme_tech
PRO
1
150
ABEMAの効果検証事例〜効果の異質性を考える〜
s1ok69oo
4
2.1k
Introduction to Graph Neural Networks
joisino
PRO
4
2.1k
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Code Reviewing Like a Champion
maltzj
520
39k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
4 Signs Your Business is Dying
shpigford
180
21k
Docker and Python
trallard
40
3.1k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Making the Leap to Tech Lead
cromwellryan
133
8.9k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
16
2.1k
Transcript
MLPシリーズ「強化学習」輪読会 #5 「ブラックボックス生成モデル」に対するプランニング 2020/01/14, Naoto Shimakoshi
自己紹介 2 • 名前 • 島越 直⼈ (シマコシ ナオト) •
よくトリゴエと間違えられますがシマコシです。 • Twitter • @nt_4o54 • 経歴 • 機械系出⾝ • 某IT企業でデータサイエンティスト⼀年⽬ • 最近強化学習に興味あり • Kaggle • @shimacos (⾦ 1, ソロ銀 2, ソロ銅3) • Kaggle Master
5章の後半からを扱います 3
5.3 ブラックボックス生成モデルに対するプランニング 4 • ブラックボックス⽣成モデルとは • 任意の状態⾏動対の⼊⼒に対して報酬と次ステップの状態を出⼒するようなモデル ( ) •
シミュレータやドメイン知識、データから設計したものを扱う (確率的なものが多い) • プランニングのアプローチの種類 • 幅優先探索 • 動的計画法 (ref. Chapter 2), スパースサンプリング法 (確率的幅優先探索) • 深さ優先探索 • UCT法 -> モンテカルロ⽊探索
• 状態数に計算量が依存しないため、状態数が⾮常に⼤きいときに有効 • 各親ノードの⾏動に対して からN回サンプリングを⾏うことで⽊を成⻑させる • これを事前に決めたパラメータTだけ深さ⽅向に繰り返す • 後⽅から再帰的に状態価値関数を計算 •
注意点:動的計画法と異なり、⼊⼒された状態の最適⾏動しか求めない 5.3.1 スパースサンプリング法 5 親ノード 孫ノード ⼦ノード
• 元論⽂でスパースサンプリング法で求まる⽅策がε最適であるための条件が⽰されている。 • 条件: がMDP、報酬の上限値が既知 ( ) • 割引率を1に近づけるほどTとNを⼤きくしなければいけない。 •
割引率を1に近づけたい(先のことをなるべく考慮したい)問題設定には不向き 5.3.1 スパースサンプリング法のNとTの設定方法 6
• スパースサンプリング法と異なり、経験的に良さそうな⾏動を優先的に選択 • 深さ優先探索を⾏い、探索を⾏ったノードのみ⽊に追加する • 各ノードが滞在回数 を保持する • 多腕バンディットにおけるUCBI法に基づいた⾏動選択 •
同⼀の値があればランダムに選択 • Tはスパースサンプリング法によって決定することもある • 探索した経験に基づき価値関数を更新 • 常に平均値になるように更新を⾏う 5.3.2 UCT法 7 探索強度を定めるハイパラ ⼤きいほど探索回数が少ないノードを探索 (報酬の⼤きさ、割引率により決定)
• UCT1法 • 通常のUCT法は異なるタイムステップの状態を異なるものとして扱うが、これを同⼀の ものとして扱い、ノード間でmやqを共有する • その他のアプローチ • ⾏動価値関数を関数近似することで汎化性能を⾼める •
TD (λ)法のように にnステップ切断リターンを⽤いることで、推定分散を⼩さくする 5.3.2 UCT法の改良 8
• UCT法の⼀般化 • 意思決定系列のシミュレーションをRollout、Rolloutに⽤いる⽅策を既定⽅策と呼ぶ • 既定⽅策は多くの場合、ランダム⽅策 • UCT法とは異なり、根ノードに近い⼀部のノードのみ保持する • アルファ碁など多くのゲームAIの基礎
• アルゴリズム (http://blog.brainpad.co.jp/entry/2018/04/05/163000が分かりやすい) • ⽊探索:葉ノードに到達するまで状態観測と⾏動選択を繰り返す (UCT法が使われること が多い) • ノード展開:経験回数が閾値を超えた場合、新たに状態ノードとそれに対応する状態⾏動 対の⼦ノードを作成し、初期化 • 葉ノード評価:葉ノード以降について既定⽅策によるロールアウトを実施することで獲得 • ノード更新:葉ノードの評価結果を根ノードまで伝播させ、各ノードの統計量を更新 5.3.3 モンテカルロ木探索 (MCTS) 9