Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習アルゴリズムPPOの改善案を考えてみた
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
NearMeの技術発表資料です
PRO
August 22, 2025
190
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
強化学習アルゴリズムPPOの改善案を考えてみた
NearMeの技術発表資料です
PRO
August 22, 2025
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
初めてのLean言語
nearme_tech
PRO
0
44
Apache Airflow Workflow orchestration without turning cron into spaghetti
nearme_tech
PRO
1
16
実務で役立つ幾何学 ボロノイ図の基礎から グラフ・ネットワーク応用まで
nearme_tech
PRO
1
49
SQL/ID抽出タスクから考える 実践的なハルシネーション対策
nearme_tech
PRO
1
63
OpenCode & Local LLM
nearme_tech
PRO
0
140
OpenCode Introduction
nearme_tech
PRO
0
53
【Browser Automation × AI】 Stagehandを試してみよう
nearme_tech
PRO
0
140
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
150
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
3
570
Featured
See All Featured
The Curious Case for Waylosing
cassininazir
1
390
Designing Powerful Visuals for Engaging Learning
tmiket
1
420
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
490
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
200
4 Signs Your Business is Dying
shpigford
187
22k
Amusing Abliteration
ianozsvald
1
210
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
360
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Transcript
0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE
1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する
◦ “記録した分布”と”現在の⽅策が出⼒した分布”のKLダイバージェンスを計算 ◦ 算出したKLダイバージェンスを最⼩化する項を⽬的関数に加える
2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization(PPO)で⽬的関数のみ以下のよう に変更した ※提案⼿法は、Anchored Policy Optimization(APO)と名付けた
• KLダイバージェンスの計算⽅向は、best→θとした ◦ bestな分布を含むように(再現できるように)θが最適化される ◦ 逆向きだとbestな分布に含まれるようになるため縛りが強くなる
3 CartPole-v1での実験結果 • 横軸:エピソード、縦軸:報酬(100エピソード移動平均) • オレンジ:従来⼿法(PPO)、⻘:提案⼿法(APO) 初期の立ち上が りは遅い(bestな 分布に縛られる ため)
良い軌跡が得られ たら、その軌跡にア ンカーされるため安 定する
4 今後の展望 • 複数エージェントで並列化訓練させる仕組みと組み合わせてみる ◦ どれか1つのエージェントが良い⾏動軌跡を発⾒したら、他のエージェントに も共有して、良い⾏動軌跡にアンカーすることで学習の安定性と効率を向上 させる狙い • スーパーマリオなどの滅多にゴールに辿り着けない環境で真価を発揮するのでは
ないかと考えているので実験してみる
5 Thank you