Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
110
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
2つの曲線を比較する方法ってあるの? 〜フレシェ距離を試してみた〜 with Python
nearme_tech
PRO
1
18
Constrained K-means Clustering (クラスタサイズの制限をしたK-means法) を調べてみた
nearme_tech
PRO
0
16
VRPの近傍操作SWAP*について調べてみた
nearme_tech
PRO
1
49
新人エンジニアが読んでためになった本
nearme_tech
PRO
2
21
Object–relational mapping and query builder battle 1: Intro to Prisma
nearme_tech
PRO
1
29
深層学習モデルの最適化 -Deep Learning Tuning Playbookを読む-
nearme_tech
PRO
1
52
機械学習を支える連続最適化
nearme_tech
PRO
1
44
サードパーティクッキーの終焉と Topics APIによる代替の可能性
nearme_tech
PRO
1
81
ONNXハンズオン
nearme_tech
PRO
2
28
Other Decks in Research
See All in Research
ソースコード問い合わせのための長コンテキストLLM向けRAG手法の提案
toskamiya
0
140
#SRE論文紹介 Detection is Better Than Cure: A Cloud Incidents Perspective V. Ganatra et. al., ESEC/FSE’23
yuukit
3
950
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
1.5k
仮説検定とP値
shuntaros
6
7.3k
RCEへの近道
kawakatz
1
620
Introduction of NII S. Koyama's Lab (AY2024)
skoyamalab
0
330
僕たちがグラフニューラルネットワークを学ぶ理由
joisino
25
11k
SSII2024 [TS1] 生成AIと3次元ビジョン ~3次元生成AIの最先端の理論~
ssii
PRO
1
980
[第55回 NLPコロキウム] コンピュータビジョン分野での評価設計と分析の研究について
otani_mayu
0
130
CARA MEMBUKA VIDEO DEWASA DI INDONESIA
bloglangit
0
320
-SSII技術マップを通して見る過去・現在,そして未来-
hf149
1
490
1on1ガイドへの想い(chachaki編)
chachakix
0
150
Featured
See All Featured
What the flash - Photography Introduction
edds
65
11k
The Straight Up "How To Draw Better" Workshop
denniskardys
229
130k
How GitHub (no longer) Works
holman
305
140k
Building an army of robots
kneath
301
42k
Why Our Code Smells
bkeepers
PRO
332
56k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
277
13k
Statistics for Hackers
jakevdp
792
220k
The Cost Of JavaScript in 2023
addyosmani
31
4.7k
Rails Girls Zürich Keynote
gr2m
93
13k
Become a Pro
speakerdeck
PRO
15
4.8k
[RailsConf 2023] Rails as a piece of cake
palkan
35
4.4k
Visualization
eitanlees
139
14k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you