Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
NearMeの技術発表資料です
PRO
July 01, 2022
Research
120
0
Share
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
SQL/ID抽出タスクから考える 実践的なハルシネーション対策
nearme_tech
PRO
0
35
OpenCode & Local LLM
nearme_tech
PRO
0
30
OpenCode Introduction
nearme_tech
PRO
0
30
【Browser Automation × AI】 Stagehandを試してみよう
nearme_tech
PRO
0
83
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
87
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
3
400
Tile38 Overview
nearme_tech
PRO
0
82
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
1
1.6k
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
44
Other Decks in Research
See All in Research
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
850
20年前に50代だった人たちの今
hysmrk
0
190
明日から使える!研究効率化ツール入門
matsui_528
12
6.9k
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
7
1.8k
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
410
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
470
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
190
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.5k
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
910
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
510
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
640
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
390
Featured
See All Featured
My Coaching Mixtape
mlcsv
0
120
Building Applications with DynamoDB
mza
96
7k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.7k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3k
Being A Developer After 40
akosma
91
590k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
500
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
800
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Facilitating Awesome Meetings
lara
57
6.8k
For a Future-Friendly Web
brad_frost
183
10k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you