Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
110
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
ローカルLLM
nearme_tech
PRO
0
4
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
6
Box-Muller法
nearme_tech
PRO
1
18
Kiro触ってみた
nearme_tech
PRO
0
78
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
4
410
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
100
強化学習アルゴリズムPPOの改善案を考えてみた
nearme_tech
PRO
0
39
Apple Containerについて調べて触ってみた
nearme_tech
PRO
0
510
Rust 並列強化学習
nearme_tech
PRO
0
34
Other Decks in Research
See All in Research
20250624_熊本経済同友会6月例会講演
trafficbrain
1
740
VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs
satai
4
380
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
860
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
10
5.8k
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.1k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
63
33k
Integrating Static Optimization and Dynamic Nature in JavaScript (GPCE 2025)
tadd
0
110
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
490
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
3
210
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
410
単施設でできる臨床研究の考え方
shuntaros
0
3.1k
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
200
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Designing Experiences People Love
moore
142
24k
Become a Pro
speakerdeck
PRO
29
5.6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
GitHub's CSS Performance
jonrohan
1032
470k
Balancing Empowerment & Direction
lara
5
720
Keith and Marios Guide to Fast Websites
keithpitt
412
23k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Gamification - CAS2011
davidbonilla
81
5.5k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Site-Speed That Sticks
csswizardry
13
950
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you