Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
120
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
2
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
150
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
22
ローカルLLM
nearme_tech
PRO
0
40
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
26
Box-Muller法
nearme_tech
PRO
1
36
Kiro触ってみた
nearme_tech
PRO
0
300
今だからこそ入門する Server-Sent Events (SSE)
nearme_tech
PRO
4
550
ReactNative のアップグレード作業が (意外に)楽しかった話
nearme_tech
PRO
2
130
Other Decks in Research
See All in Research
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
190
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
1
220
CVPR2025論文紹介:Unboxed
murakawatakuya
0
230
LLM-jp-3 and beyond: Training Large Language Models
odashi
1
720
「リアル×スキマ時間」を活用したUXリサーチ 〜新規事業を前に進めるためのUXリサーチプロセスの設計〜
techtekt
PRO
0
200
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
Language Models Are Implicitly Continuous
eumesy
PRO
0
360
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
580
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
240
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
270
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
2.6k
Nullspace MPC
mizuhoaoki
1
520
Featured
See All Featured
Site-Speed That Sticks
csswizardry
13
1k
Statistics for Hackers
jakevdp
799
230k
It's Worth the Effort
3n
187
29k
The Cult of Friendly URLs
andyhume
79
6.7k
Test your architecture with Archunit
thirion
1
2.1k
Exploring anti-patterns in Rails
aemeredith
2
200
How to Talk to Developers About Accessibility
jct
1
84
Optimizing for Happiness
mojombo
379
70k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
210
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
60
37k
The Language of Interfaces
destraynor
162
25k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
30
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you