Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
NearMeの技術発表資料です
PRO
August 29, 2022
Technology
92
0
Share
強化学習への入り口 part2
NearMeの技術発表資料です
PRO
August 29, 2022
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
実務で役立つ幾何学 ボロノイ図の基礎から グラフ・ネットワーク応用まで
nearme_tech
PRO
0
16
SQL/ID抽出タスクから考える 実践的なハルシネーション対策
nearme_tech
PRO
0
42
OpenCode & Local LLM
nearme_tech
PRO
0
39
OpenCode Introduction
nearme_tech
PRO
0
34
【Browser Automation × AI】 Stagehandを試してみよう
nearme_tech
PRO
0
100
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
110
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
3
430
Tile38 Overview
nearme_tech
PRO
0
86
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
1
1.7k
Other Decks in Technology
See All in Technology
O'Reilly Infrastructure & Ops Superstream: Platform Engineering for Developers, Architects & the Rest of Us
syntasso
0
310
分断された OT と IT を繋ぐ架け橋 -Kubernetes が切り拓く 産業用組み込み製品の現在地 -
yudaiono
1
130
ワールドカフェ再び、そしてゴール・ルール・ロール・ツール / World Café Revisited, and the Goals-Rules-Roles-Tools
ks91
PRO
0
180
生成AI時代に信頼性をどう保ち続けるか - Policy as Code の実践
akitok_
1
510
サイボウズ、プラットフォームエンジニアリング始めるってよ ― プラットフォームチームの事業貢献と組織アラインメントの強化
ueokande
0
120
クラウドネイティブ DB はいかにして制約を 克服したか? 〜進化歴史から紐解く、スケーラブルアーキテクチャ設計指針〜
hacomono
PRO
6
1.2k
20260516_SecJAWS_Days
takuyay0ne
2
520
「強制アップデート」か「チームの自律」か?エンタープライズが辿り着いたプラットフォームのハイブリッド運用/cloudnative-kaigi-hybrid-platform-operations
mhrtech
0
220
GCASアップデート(202603-202605)
techniczna
0
230
RedmineをAIで効率的に使う検証
yoshiokacb
0
150
【禁断】Obsidianの第二の脳に「知の巨人」と呼ばれた師匠の脳をロードしてみた
nagatsu
0
420
続 運用改善、不都合な真実 〜 物理制約のない運用改善はほとんど無価値 / 20260518-ssmjp-kaizen-no-value-without-physical-constraints
opelab
2
270
Featured
See All Featured
Marketing to machines
jonoalderson
1
5.3k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
350
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
300
Six Lessons from altMBA
skipperchong
29
4.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
200
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.2k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
310
Optimizing for Happiness
mojombo
378
71k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
160
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you