Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
NearMeの技術発表資料です
August 29, 2022
Technology
0
76
強化学習への入り口 part2
NearMeの技術発表資料です
August 29, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
GTFSのデータを Streamlitで可視化してみた
nearme_tech
0
16
Offset / Cursor Paginationについて
nearme_tech
1
21
⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について
nearme_tech
22
15k
VRPを深層強化学習で解く
nearme_tech
0
59
Let’s go monorepo - intro to Nx.dev
nearme_tech
0
15
Dynamic Vehicle Routing のシミュレーションを Streamlitで作ってみた
nearme_tech
0
61
ログ監視ツールについて調べてみた
nearme_tech
0
52
(インターン生が大学院で行なっている)研究紹介
nearme_tech
0
43
拡散モデルの概要 −§2. スコアベースモデルについて−
nearme_tech
0
55
Other Decks in Technology
See All in Technology
Garoon 開発チーム / Garoon development team
cybozuinsideout
PRO
2
2.9k
Microsoft Cloudで開発ライフサイクルを保護する
kkamegawa
0
140
Algyan イベント振り返り
linyixian
0
190
Postman v10リリース後を振り返る
nagix
0
130
4年前、あるじゃん老害エンジニアLT合戦に登壇、米国西海岸コンピュータ歴史博物館体験記の続編
toshi_atsumi
0
190
Next'24 事例セッションの紹介とクラウド資格を活用したキャリア形成について語りMuscle
yasumuusan
1
320
人間の尊厳、幸福、アクセシビリティ / 第116回「WEB TOUCH MEETING」アクセシビリティSP
nulabinc
PRO
2
180
Terraformあれやこれ/terraform-this-and-that
emiki
4
340
DevOpsメトリクスとアウトカムの接続にトライ!開発プロセスを通して計測できるメトリクスの活用方法
ham0215
1
190
2024/4/26 コンピュータ歴史博物館解説告知
toshi_atsumi
0
200
スタートアップの技術顧問を3年間続けて発生した事と気付き
biwakonbu
0
160
Databricks におけるデータエンジニアリング
databricksjapan
0
370
Featured
See All Featured
Done Done
chrislema
178
15k
Build The Right Thing And Hit Your Dates
maggiecrowley
23
2k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
No one is an island. Learnings from fostering a developers community.
thoeni
14
2.1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
39
4.4k
Robots, Beer and Maslow
schacon
PRO
155
7.9k
Bootstrapping a Software Product
garrettdimon
PRO
301
110k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
13
1.5k
Making the Leap to Tech Lead
cromwellryan
123
8.5k
Rebuilding a faster, lazier Slack
samanthasiow
72
8.2k
Testing 201, or: Great Expectations
jmmastey
27
6.3k
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you