Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MLPシリーズ「強化学習」輪読会 #5
Search
shimacos
January 14, 2020
Science
1
460
MLPシリーズ「強化学習」輪読会 #5
MLPシリーズ「強化学習」輪読会 での発表資料です。
5.3 説の「ブラックボックス生成モデル」に対するプランニングについてまとめました。
shimacos
January 14, 2020
Tweet
Share
More Decks by shimacos
See All by shimacos
バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024
shimacos
2
1.6k
LayerXにおけるAI・機械学習技術の活用と展望 / layerx-ai-jsai2024
shimacos
2
3.4k
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
2.1k
[関東Kaggler会 スポンサーセッション] LayerXの事業と機械学習でできること / kanto-kaggler-layerx
shimacos
0
1.4k
[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop
shimacos
3
1.1k
LayerXにおける機械学習を活用したOCR機能の改善に関する取り組み / layerx-jsai-2023
shimacos
3
25k
Kaggle Days Championship予選全12回まとめ + TIPS
shimacos
0
6.6k
Kaggle Feedback Prizeコンペ 反省会
shimacos
5
3.5k
BQMLことはじめ
shimacos
2
1.8k
Other Decks in Science
See All in Science
3次元点群を利用した植物の葉の自動セグメンテーションについて
kentaitakura
2
890
SciPyDataJapan 2025
schwalbe10
0
140
Reconciling Accuracy, Cost, and Latency of Inference Serving Systems
pjamshidi
0
120
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
400
240510 COGNAC LabChat
kazh
0
180
Healthcare Innovation through Business Entrepreneurship
clintwinters
0
190
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
170
Valuable Lessons Learned on Kaggle’s ARC AGI LLM Challenge (PyDataGlobal 2024)
ianozsvald
0
210
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
440
学術講演会中央大学学員会八王子支部
tagtag
0
270
ICRA2024 速報
rpc
3
6k
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
180
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
GraphQLの誤解/rethinking-graphql
sonatard
68
10k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1k
Why Our Code Smells
bkeepers
PRO
336
57k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.1k
Building a Scalable Design System with Sketch
lauravandoore
461
33k
Code Review Best Practice
trishagee
67
18k
We Have a Design System, Now What?
morganepeng
51
7.4k
How to Ace a Technical Interview
jacobian
276
23k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
For a Future-Friendly Web
brad_frost
176
9.5k
Transcript
MLPシリーズ「強化学習」輪読会 #5 「ブラックボックス生成モデル」に対するプランニング 2020/01/14, Naoto Shimakoshi
自己紹介 2 • 名前 • 島越 直⼈ (シマコシ ナオト) •
よくトリゴエと間違えられますがシマコシです。 • Twitter • @nt_4o54 • 経歴 • 機械系出⾝ • 某IT企業でデータサイエンティスト⼀年⽬ • 最近強化学習に興味あり • Kaggle • @shimacos (⾦ 1, ソロ銀 2, ソロ銅3) • Kaggle Master
5章の後半からを扱います 3
5.3 ブラックボックス生成モデルに対するプランニング 4 • ブラックボックス⽣成モデルとは • 任意の状態⾏動対の⼊⼒に対して報酬と次ステップの状態を出⼒するようなモデル ( ) •
シミュレータやドメイン知識、データから設計したものを扱う (確率的なものが多い) • プランニングのアプローチの種類 • 幅優先探索 • 動的計画法 (ref. Chapter 2), スパースサンプリング法 (確率的幅優先探索) • 深さ優先探索 • UCT法 -> モンテカルロ⽊探索
• 状態数に計算量が依存しないため、状態数が⾮常に⼤きいときに有効 • 各親ノードの⾏動に対して からN回サンプリングを⾏うことで⽊を成⻑させる • これを事前に決めたパラメータTだけ深さ⽅向に繰り返す • 後⽅から再帰的に状態価値関数を計算 •
注意点:動的計画法と異なり、⼊⼒された状態の最適⾏動しか求めない 5.3.1 スパースサンプリング法 5 親ノード 孫ノード ⼦ノード
• 元論⽂でスパースサンプリング法で求まる⽅策がε最適であるための条件が⽰されている。 • 条件: がMDP、報酬の上限値が既知 ( ) • 割引率を1に近づけるほどTとNを⼤きくしなければいけない。 •
割引率を1に近づけたい(先のことをなるべく考慮したい)問題設定には不向き 5.3.1 スパースサンプリング法のNとTの設定方法 6
• スパースサンプリング法と異なり、経験的に良さそうな⾏動を優先的に選択 • 深さ優先探索を⾏い、探索を⾏ったノードのみ⽊に追加する • 各ノードが滞在回数 を保持する • 多腕バンディットにおけるUCBI法に基づいた⾏動選択 •
同⼀の値があればランダムに選択 • Tはスパースサンプリング法によって決定することもある • 探索した経験に基づき価値関数を更新 • 常に平均値になるように更新を⾏う 5.3.2 UCT法 7 探索強度を定めるハイパラ ⼤きいほど探索回数が少ないノードを探索 (報酬の⼤きさ、割引率により決定)
• UCT1法 • 通常のUCT法は異なるタイムステップの状態を異なるものとして扱うが、これを同⼀の ものとして扱い、ノード間でmやqを共有する • その他のアプローチ • ⾏動価値関数を関数近似することで汎化性能を⾼める •
TD (λ)法のように にnステップ切断リターンを⽤いることで、推定分散を⼩さくする 5.3.2 UCT法の改良 8
• UCT法の⼀般化 • 意思決定系列のシミュレーションをRollout、Rolloutに⽤いる⽅策を既定⽅策と呼ぶ • 既定⽅策は多くの場合、ランダム⽅策 • UCT法とは異なり、根ノードに近い⼀部のノードのみ保持する • アルファ碁など多くのゲームAIの基礎
• アルゴリズム (http://blog.brainpad.co.jp/entry/2018/04/05/163000が分かりやすい) • ⽊探索:葉ノードに到達するまで状態観測と⾏動選択を繰り返す (UCT法が使われること が多い) • ノード展開:経験回数が閾値を超えた場合、新たに状態ノードとそれに対応する状態⾏動 対の⼦ノードを作成し、初期化 • 葉ノード評価:葉ノード以降について既定⽅策によるロールアウトを実施することで獲得 • ノード更新:葉ノードの評価結果を根ノードまで伝播させ、各ノードの統計量を更新 5.3.3 モンテカルロ木探索 (MCTS) 9