Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
110
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
ESLintをもっと有効活用しよう
nearme_tech
PRO
0
9
リファクタリングのための第一歩
nearme_tech
PRO
0
31
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
85
確率的プログラミング入門
nearme_tech
PRO
2
83
Observability and OpenTelemetry
nearme_tech
PRO
2
37
観察研究における因果推論
nearme_tech
PRO
1
110
React
nearme_tech
PRO
2
44
Architecture Decision Record (ADR)
nearme_tech
PRO
1
870
遺伝的アルゴリズムを実装する
nearme_tech
PRO
1
72
Other Decks in Research
See All in Research
機械学習でヒトの行動を変える
hiromu1996
1
430
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
140
CVPR2024 参加報告
kwchrk
0
140
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
570
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
210
marukotenant01/tenant-20240916
marketing2024
0
640
Composed image retrieval for remote sensing
satai
2
140
The many faces of AI and the role of mathematics
gpeyre
1
1.5k
ラムダ計算の拡張に基づく 音楽プログラミング言語mimium とそのVMの実装
tomoyanonymous
0
300
Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ
masatoto
1
160
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3.2k
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
400
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
340
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
Designing for humans not robots
tammielis
250
25k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Producing Creativity
orderedlist
PRO
343
39k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
For a Future-Friendly Web
brad_frost
176
9.5k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you