Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
NearMeの技術発表資料です
PRO
August 29, 2022
Technology
0
83
強化学習への入り口 part2
NearMeの技術発表資料です
PRO
August 29, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
Box-Muller法
nearme_tech
PRO
1
14
Kiro触ってみた
nearme_tech
PRO
0
34
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
4
350
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
93
強化学習アルゴリズムPPOの改善案を考えてみた
nearme_tech
PRO
0
27
Apple Containerについて調べて触ってみた
nearme_tech
PRO
0
370
Rust 並列強化学習
nearme_tech
PRO
0
28
並列で⽣成AIにコーディングをやらせる
nearme_tech
PRO
1
210
希望休勤務を考慮したシフト作成
nearme_tech
PRO
0
48
Other Decks in Technology
See All in Technology
[Codex Meetup Japan #1] Codex-Powered Mobile Apps Development
korodroid
2
970
Node.js 2025: What's new and what's next
ruyadorno
0
400
「改善」ってこれでいいんだっけ?
ukigmo_hiro
0
330
「れきちず」のこれまでとこれから - 誰にでもわかりやすい歴史地図を目指して / FOSS4G 2025 Japan
hjmkth
1
320
それでも私が品質保証プロセスを作り続ける理由 #テストラジオ / Why I still continue to create QA process
pineapplecandy
0
130
プロダクトのコードから見るGoによるデザインパターンの実践 #go_night_talk
bengo4com
1
2.6k
衛星画像超解像化によって実現する2D, 3D空間情報の即時生成と“AI as a Service”/ Real-time generation spatial data enabled_by satellite image super-resolution
lehupa
0
180
LLMアプリの地上戦開発計画と運用実践 / 2025.10.15 GPU UNITE 2025
smiyawaki0820
1
630
Azureコストと向き合った、4年半のリアル / Four and a half years of dealing with Azure costs
aeonpeople
1
120
「使い方教えて」「事例教えて」じゃもう遅い! Microsoft 365 Copilot を触り倒そう!
taichinakamura
0
430
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.8k
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
310
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
A Modern Web Designer's Workflow
chriscoyier
697
190k
YesSQL, Process and Tooling at Scale
rocio
173
14k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
910
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
Building Applications with DynamoDB
mza
96
6.7k
A designer walks into a library…
pauljervisheath
209
24k
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you