Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
NearMeの技術発表資料です
PRO
August 29, 2022
Technology
91
0
Share
強化学習への入り口 part2
NearMeの技術発表資料です
PRO
August 29, 2022
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
OpenCode & Local LLM
nearme_tech
PRO
0
21
OpenCode Introduction
nearme_tech
PRO
0
27
【Browser Automation × AI】 Stagehandを試してみよう
nearme_tech
PRO
0
69
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
82
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
3
370
Tile38 Overview
nearme_tech
PRO
0
75
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
1
1.4k
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
42
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
750
Other Decks in Technology
See All in Technology
Shipping AI Agents — Lessons from Production
vvatanabe
0
300
データ定義の混乱と戦う 〜 管理会計と財務会計 〜
wonohe
0
170
Oracle Cloud Infrastructure:2026年4月度サービス・アップデート
oracle4engineer
PRO
0
220
AWS Agent Registry の基礎・概要を理解する/aws-agent-registry-intro
ren8k
3
420
基盤を育てる 外部SaaS連携の運用
gamonges_dresscode
1
130
音声言語モデル手法に関する発表の紹介
kzinmr
0
150
『生成AI時代のクレデンシャルとパーミッション設計 — Claude Code を起点に』の執筆企画
takuros
2
1.7k
ハーネスエンジニアリングの概要と設計思想
sergicalsix
9
6.6k
Fabric MCPの紹介と使い分け
ryomaru0825
1
100
AndroidアプリとCopilot Studioの統合
nakasho
0
180
FessのAI検索モード:検索システムとLLMへの取り組み
marevol
0
150
生成AIが変える SaaS の競争原理と弁護士ドットコムのプロダクト戦略
bengo4com
1
3k
Featured
See All Featured
Tell your own story through comics
letsgokoyo
1
900
Leo the Paperboy
mayatellez
7
1.7k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
410
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
200
Producing Creativity
orderedlist
PRO
348
40k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
170
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
53k
How STYLIGHT went responsive
nonsquared
100
6.1k
How to Talk to Developers About Accessibility
jct
2
190
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you