Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
110
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
0
35
確率的プログラミング入門
nearme_tech
PRO
2
35
Observability and OpenTelemetry
nearme_tech
PRO
2
29
観察研究における因果推論
nearme_tech
PRO
1
72
React
nearme_tech
PRO
2
33
Architecture Decision Record (ADR)
nearme_tech
PRO
1
820
遺伝的アルゴリズムを実装する
nearme_tech
PRO
1
46
Fractional Derivative!
nearme_tech
PRO
1
37
GitHub Projectsにおける チケットの ステータス更新自動化について
nearme_tech
PRO
1
58
Other Decks in Research
See All in Research
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
140
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
260
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
590
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.2k
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
480
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
650
論文紹介: COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024)
ynakano
1
100
Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ
masatoto
1
190
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
250
MIRU2024_招待講演_RALF_in_CVPR2024
udonda
1
330
クロスセクター効果研究会 熊本都市交通リノベーション~「車1割削減、渋滞半減、公共交通2倍」の実現へ~
trafficbrain
0
260
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
120
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Optimizing for Happiness
mojombo
376
70k
Unsuck your backbone
ammeep
668
57k
The Cult of Friendly URLs
andyhume
78
6k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
Rails Girls Zürich Keynote
gr2m
94
13k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Happy Clients
brianwarren
98
6.7k
Docker and Python
trallard
40
3.1k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you