Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
NearMeの技術発表資料です
PRO
August 29, 2022
Technology
0
80
強化学習への入り口 part2
NearMeの技術発表資料です
PRO
August 29, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
観察研究における因果推論
nearme_tech
PRO
1
42
React
nearme_tech
PRO
2
19
Architecture Decision Record (ADR)
nearme_tech
PRO
1
770
遺伝的アルゴリズムを実装する
nearme_tech
PRO
1
26
Fractional Derivative!
nearme_tech
PRO
1
24
GitHub Projectsにおける チケットの ステータス更新自動化について
nearme_tech
PRO
1
38
2つの曲線を比較する方法ってあるの? 〜フレシェ距離を試してみた〜 with Python
nearme_tech
PRO
1
160
Constrained K-means Clustering (クラスタサイズの制限をしたK-means法) を調べてみた
nearme_tech
PRO
1
74
VRPの近傍操作SWAP*について調べてみた
nearme_tech
PRO
1
82
Other Decks in Technology
See All in Technology
AWSの初級者向けAI・ML資格『AWS Certified AI Practitioner』の傾向と対策/So You Want To Pass AWS Certified AI Practitioner
quiver
0
530
KubeVirt Networking ONIC 2024
orimanabu
4
650
ゼロから実装まで!機械学習入門
natsuki0726
0
210
The People First Approach to Engineering Success - DevNot 2024
zikriyeurkmez
0
170
From LibreOffice to « La Suite » : providing civil servants with Free Software sovereign tools
bluehats
0
100
Road to Single Activity Uncovered
yurihondo
0
100
Grafana エコシステムの活用事例 on ABEMA
tetsuya28
4
320
Qdrant を用いた検索改善施策の紹介 / Search Engineering Tech Talk 2024 Summer
visional_engineering_and_design
1
210
ラブグラフ紹介資料 〜プロダクト解体新書〜 / Lovegraph Product Deck
lovegraph
0
14k
とある事業会社にとっての Kaggler の魅力
hakubishin3
5
990
Cosmos DB で持続可能な RAG を実現しよう!~ AOAI Dev Day ふりかえりを添えて / Sustainable RAG with Cosmos DB with recap AOAI Dev Day
miyake
0
110
I tried the newly introduced certification "Applied Skills" on Microsoft Learn
mappie_kochi
0
250
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
231
17k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
A Tale of Four Properties
chriscoyier
156
22k
GitHub's CSS Performance
jonrohan
1030
450k
Learning to Love Humans: Emotional Interface Design
aarron
272
40k
Practical Orchestrator
shlominoach
186
10k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
225
22k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
130k
Pencils Down: Stop Designing & Start Developing
hursman
119
11k
Documentation Writing (for coders)
carmenintech
65
4.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
264
13k
A designer walks into a library…
pauljervisheath
202
24k
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you