Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習ライブラリ RLlibを使ってみた
Search
NearMeの技術発表資料です
December 17, 2023
0
41
強化学習ライブラリ RLlibを使ってみた
NearMeの技術発表資料です
December 17, 2023
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
OR-Toolsの中⾝ -VRPの解法について-
nearme_tech
0
34
GTFSのデータを Streamlitで可視化してみた
nearme_tech
0
36
Offset / Cursor Paginationについて
nearme_tech
2
72
⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について
nearme_tech
23
15k
VRPを深層強化学習で解く
nearme_tech
0
67
Let’s go monorepo - intro to Nx.dev
nearme_tech
0
21
Dynamic Vehicle Routing のシミュレーションを Streamlitで作ってみた
nearme_tech
0
63
ログ監視ツールについて調べてみた
nearme_tech
0
58
(インターン生が大学院で行なっている)研究紹介
nearme_tech
0
47
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
33
6k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
Navigating Team Friction
lara
179
13k
The Illustrated Children's Guide to Kubernetes
chrisshort
32
46k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
The Cost Of JavaScript in 2023
addyosmani
20
3.9k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
The Straight Up "How To Draw Better" Workshop
denniskardys
228
130k
How to name files
jennybc
65
93k
Transcript
0 強化学習ライブラリ RLlibを使ってみた 2023-12-15 第71回NearMe技術勉強会 ⼤神卓也
1 エージェントが環境とのやり取りを通じて、 得られる収益を最⼤化するような⾏動を学習する 強化学習(Reinforcement Learning) 報酬 ⾏動 状態 エージェント 環境
2 • Ray(分散並列処理のライブラリ)を使って強化学習のアルゴリズム が実装されたライブラリ • 幅広いアルゴリズムが実装されてい https://docs.ray.io/en/latest/rllib/rllib-algorithms.html • マルチエージェントRL •
オフラインRL • 高機能 • 実験管理 • ハイパーパラメータ探索 RLlibとは
3 使ってみた Proximal Policy Optimization(PPO)を使ってCartPole-v1を解く
4 台を左右に動かして棒が倒れないようにがんばる 終了条件 • 棒が倒れる • 画面外に退場 • 500ステップ耐える 報酬
• つねに+1 CartPole-v1
5 Proximal Policy Optimization(PPO)を使ってCartPole-v1を解く ソースコード https://github.com/ogami334/rllib_prac 使ってみた
6 実験管理 • Weights & Biases https://docs.ray.io/en/latest/tune/examples/tune-wandb.html 他にもいろいろな実験管理ツールと • Comet
• MLflow
7 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める 2. 経験をもとに,収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す 並列訓練
8 PPOのアルゴリズム(ざっくり) 1. 環境とやり取りして経験を集める ←複数CPUで並列実行 2. 経験をもとに,収益が高くなる行動をとるように方策を更新 1, 2 を繰り返す
並列訓練
9 並列訓練 # 6CPUで並列に経験を集めることで高速化 PPOConfig().rollouts(num_rollout_workers=6)
10 感想 • 書き方の流儀が3パターンほどあり、わかりにくい • 今回紹介した以外にも便利な機能がある • tuned examples https://github.com/ray-project/ray/tree/master/rllib/tuned_examples
• 使いこなせたら手軽に幅広いRLタスクをこなせそう
11 Thank you