Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
NearMeの技術発表資料です
PRO
July 01, 2022
Research
0
120
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
0
18
Tile38 Overview
nearme_tech
PRO
0
38
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
0
230
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
23
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
450
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
35
ローカルLLM
nearme_tech
PRO
0
61
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
36
Box-Muller法
nearme_tech
PRO
1
55
Other Decks in Research
See All in Research
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
320
存立危機事態の再検討
jimboken
0
240
2026.01ウェビナー資料
elith
0
230
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.6k
姫路市 -都市OSの「再実装」-
hopin
0
1.6k
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
500
When Learned Data Structures Meet Computer Vision
matsui_528
1
2.9k
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
330
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
470
R&Dチームを起ち上げる
shibuiwilliam
1
170
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
480
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
110
Featured
See All Featured
Google's AI Overviews - The New Search
badams
0
910
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
110
Code Review Best Practice
trishagee
74
20k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
130
sira's awesome portfolio website redesign presentation
elsirapls
0
160
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
Six Lessons from altMBA
skipperchong
29
4.2k
Mind Mapping
helmedeiros
PRO
1
91
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
440
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
290
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you