Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
110
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
3
200
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
76
強化学習アルゴリズムPPOの改善案を考えてみた
nearme_tech
PRO
0
8
Apple Containerについて調べて触ってみた
nearme_tech
PRO
0
120
Rust 並列強化学習
nearme_tech
PRO
0
23
並列で⽣成AIにコーディングをやらせる
nearme_tech
PRO
1
150
希望休勤務を考慮したシフト作成
nearme_tech
PRO
0
40
Hub Labeling による高速経路探索
nearme_tech
PRO
0
100
Build an AI agent with Mastra
nearme_tech
PRO
0
82
Other Decks in Research
See All in Research
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
1.1k
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
4.2k
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
580
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
1
200
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
kurita
0
170
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
300
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
530
Submeter-level land cover mapping of Japan
satai
3
290
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
0
330
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
260
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
2.8k
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
270
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Practical Orchestrator
shlominoach
190
11k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
GraphQLとの向き合い方2022年版
quramy
49
14k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
31
2.2k
Designing for humans not robots
tammielis
253
25k
Making Projects Easy
brettharned
117
6.4k
How STYLIGHT went responsive
nonsquared
100
5.8k
jQuery: Nuts, Bolts and Bling
dougneiner
64
7.9k
The World Runs on Bad Software
bkeepers
PRO
70
11k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
RailsConf 2023
tenderlove
30
1.2k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you