Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
120
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
84
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
19
ローカルLLM
nearme_tech
PRO
0
33
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
19
Box-Muller法
nearme_tech
PRO
1
35
Kiro触ってみた
nearme_tech
PRO
0
260
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
4
520
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
120
強化学習アルゴリズムPPOの改善案を考えてみた
nearme_tech
PRO
0
80
Other Decks in Research
See All in Research
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
260
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
530
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
2.5k
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
570
snlp2025_prevent_llm_spikes
takase
0
420
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
140
湯村研究室の紹介2025 / yumulab2025
yumulab
0
240
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
180
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
890
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
600
Open Gateway 5GC利用への期待と不安
stellarcraft
2
170
Agentic AI Era におけるサプライチェーン最適化
mickey_kubo
0
100
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
A better future with KSS
kneath
240
18k
GraphQLとの向き合い方2022年版
quramy
50
14k
Done Done
chrislema
186
16k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
730
Speed Design
sergeychernyshev
33
1.4k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Code Review Best Practice
trishagee
74
19k
The Cult of Friendly URLs
andyhume
79
6.7k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you