Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part1
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
NearMeの技術発表資料です
PRO
July 01, 2022
Research
120
0
Share
強化学習への入り口 part1
NearMeの技術発表資料です
PRO
July 01, 2022
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
OpenCode Introduction
nearme_tech
PRO
0
14
【Browser Automation × AI】 Stagehandを試してみよう
nearme_tech
PRO
0
53
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
60
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
3
280
Tile38 Overview
nearme_tech
PRO
0
65
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
0
880
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
39
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
680
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
53
Other Decks in Research
See All in Research
Ankylosing Spondylitis
ankh2054
0
160
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
110
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
220
2025-11-21-DA-10th-satellite
yegusa
0
140
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
370
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.5k
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
150
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
400
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2k
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
120
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
1
150
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.2k
Featured
See All Featured
Tell your own story through comics
letsgokoyo
1
880
The Invisible Side of Design
smashingmag
302
51k
BBQ
matthewcrist
89
10k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
68
38k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
350
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
27
3.4k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Building an army of robots
kneath
306
46k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
230
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Transcript
0 強化学習への入り口 part1 2022-07-01 第4回NearMe技術勉強会 Takuma Kakinoue
1 目次 1. 強化学習とは? 2. 強化学習の適用事例 3. ”報酬”と”価値” 4. Q値の定義
2 1.強化学習とは? 図に示すように環境との相互作用を通して、 貰える報酬が最大となるような方策(Policy)を学習する機械学習手法 ※方策 : 状態を入力とし、行動を出力するモデル
3 2.強化学習の適用事例 • ゲームAI • ロボット制御 • 自動運転 • コンテンツのレコメンド
• 巡回セールスマン問題 etc..
4 3.”報酬”と”価値” 報酬とは、ある状態である行動をしたときの即時的な利益 価値とは、将来的に貰えるであろう報酬の割引現在価値の総和 例えば.. • 即日で10万円の報酬を貰える • 一日1000円の報酬を1年間貰える
どちらの価値が高いか? (割引率によって変わる、仮に1なら?0なら?0.99なら?)
5 4.Q値の定義 Q値とは、状態stで行動atを選択する価値(状態行動価値) 1step後のQ値を将来の価値としている 即時報酬 α : 学習率
γ : 割引率
6 次回 • 強化学習への入り口 part2 ◦ 方策の表現方法 ◦ Q値をもとに方策の改善 ◦
探索と利用のトレードオフ
7 参考文献 • Matlabによる強化学習
8 Thank you