Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
NearMeの技術発表資料です
PRO
August 29, 2022
Technology
0
88
強化学習への入り口 part2
NearMeの技術発表資料です
PRO
August 29, 2022
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
31
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
2
150
Tile38 Overview
nearme_tech
PRO
0
55
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
0
410
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
32
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
540
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
49
ローカルLLM
nearme_tech
PRO
0
85
LlamaIndex Workflow: Build Practical AI Agents Fast
nearme_tech
PRO
0
45
Other Decks in Technology
See All in Technology
Claude Cowork Plugins を読む - Skills駆動型業務エージェント設計の実像と構造
knishioka
0
300
生成AIの利用とセキュリティ /gen-ai-and-security
mizutani
1
1.4k
白金鉱業Meetup_Vol.22_Orbital Senseを支える衛星画像のマルチモーダルエンベディングと地理空間のあいまい検索技術
brainpadpr
2
260
管理者向けGitHub Enterpriseの運用Tips紹介: 人にもAIにも優しいプラットフォームづくり
yuriemori
0
170
マネージャー版 "提案のレベル" を上げる
konifar
21
14k
トップマネジメントとコンピテンシーから考えるエンジニアリングマネジメント
zigorou
4
750
AWS SES VDMで 将来の配信事故を防げた話
moyashi
0
180
男(監査)はつらいよ - Policy as CodeからAIエージェントへ
ken5scal
5
770
【SLO】"多様な期待値" と向き合ってみた
z63d
2
310
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
11k
マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察
markunet
2
160
Evolution of Claude Code & How to use features
oikon48
1
530
Featured
See All Featured
AI: The stuff that nobody shows you
jnunemaker
PRO
3
360
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Building AI with AI
inesmontani
PRO
1
770
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
88
Designing for humans not robots
tammielis
254
26k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
First, design no harm
axbom
PRO
2
1.1k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
110
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
GraphQLとの向き合い方2022年版
quramy
50
14k
Evolving SEO for Evolving Search Engines
ryanjones
0
150
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you