Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習アルゴリズムPPOの改善案を考えてみた
Search
NearMeの技術発表資料です
PRO
August 22, 2025
0
72
強化学習アルゴリズムPPOの改善案を考えてみた
NearMeの技術発表資料です
PRO
August 22, 2025
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
17
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
18
ローカルLLM
nearme_tech
PRO
0
30
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
16
Box-Muller法
nearme_tech
PRO
1
30
Kiro触ってみた
nearme_tech
PRO
0
210
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
4
480
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
120
Apple Containerについて調べて触ってみた
nearme_tech
PRO
1
790
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
690
Building Applications with DynamoDB
mza
96
6.8k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
69k
It's Worth the Effort
3n
187
29k
Documentation Writing (for coders)
carmenintech
76
5.2k
Writing Fast Ruby
sferik
630
62k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
Faster Mobile Websites
deanohume
310
31k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
We Have a Design System, Now What?
morganepeng
54
7.9k
Transcript
0 強化学習アルゴリズムPPOの改善案を考えてみた 2025-08-22 第128回NearMe技術勉強会 Takuma KAKINOUE
1 概要 • 強化学習の従来のオンポリシーアルゴリズムの⽋点 ◦ 良い⾏動軌跡を⾒つけて⼀度学習しても、探索するうちに忘れてしまう • 提案⼿法 ◦ 報酬が⾼かったエピソードの各ステップの⾏動確率分布を記録する
◦ “記録した分布”と”現在の⽅策が出⼒した分布”のKLダイバージェンスを計算 ◦ 算出したKLダイバージェンスを最⼩化する項を⽬的関数に加える
2 提案⼿法の実装詳細 • ベースはProximal Policy Optimization(PPO)で⽬的関数のみ以下のよう に変更した ※提案⼿法は、Anchored Policy Optimization(APO)と名付けた
• KLダイバージェンスの計算⽅向は、best→θとした ◦ bestな分布を含むように(再現できるように)θが最適化される ◦ 逆向きだとbestな分布に含まれるようになるため縛りが強くなる
3 CartPole-v1での実験結果 • 横軸:エピソード、縦軸:報酬(100エピソード移動平均) • オレンジ:従来⼿法(PPO)、⻘:提案⼿法(APO) 初期の立ち上が りは遅い(bestな 分布に縛られる ため)
良い軌跡が得られ たら、その軌跡にア ンカーされるため安 定する
4 今後の展望 • 複数エージェントで並列化訓練させる仕組みと組み合わせてみる ◦ どれか1つのエージェントが良い⾏動軌跡を発⾒したら、他のエージェントに も共有して、良い⾏動軌跡にアンカーすることで学習の安定性と効率を向上 させる狙い • スーパーマリオなどの滅多にゴールに辿り着けない環境で真価を発揮するのでは
ないかと考えているので実験してみる
5 Thank you