Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
110
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
Architecture Decision Record (ADR)
nearme_tech
PRO
1
650
遺伝的アルゴリズムを実装する
nearme_tech
PRO
1
20
Fractional Derivative!
nearme_tech
PRO
1
15
GitHub Projectsにおける チケットの ステータス更新自動化について
nearme_tech
PRO
1
27
2つの曲線を比較する方法ってあるの? 〜フレシェ距離を試してみた〜 with Python
nearme_tech
PRO
1
110
Constrained K-means Clustering (クラスタサイズの制限をしたK-means法) を調べてみた
nearme_tech
PRO
1
47
VRPの近傍操作SWAP*について調べてみた
nearme_tech
PRO
1
77
新人エンジニアが読んでためになった本
nearme_tech
PRO
2
41
Object–relational mapping and query builder battle 1: Intro to Prisma
nearme_tech
PRO
1
46
Other Decks in Research
See All in Research
ミニ四駆AI用制御装置の事例紹介
aks3g
0
120
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.4k
Language is primarily a tool for communication rather than thought
ryou0634
4
630
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
sgk
0
240
SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
ssii
PRO
2
2.1k
20240710_熊本県議会・熊本市議会_都市交通勉強会
trafficbrain
0
680
出生抑制策と少子化
morimasao16
0
390
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
410
大規模言語モデルのバイアス
yukinobaba
PRO
4
410
20240626_金沢大学_新機能集積回路設計特論_配布用 #makelsi
takasumasakazu
0
140
授業評価アンケートのテキストマイニング
langstat
1
320
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
2
490
Featured
See All Featured
From Idea to $5000 a Month in 5 Months
shpigford
379
46k
VelocityConf: Rendering Performance Case Studies
addyosmani
322
23k
Designing for Performance
lara
604
68k
We Have a Design System, Now What?
morganepeng
48
7.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
230
130k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
653
58k
Making Projects Easy
brettharned
113
5.8k
Designing the Hi-DPI Web
ddemaree
278
34k
The World Runs on Bad Software
bkeepers
PRO
64
11k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
88
16k
Become a Pro
speakerdeck
PRO
22
4.9k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you