Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習への入り口 part2
Search
NearMeの技術発表資料です
PRO
August 29, 2022
Technology
90
0
Share
強化学習への入り口 part2
NearMeの技術発表資料です
PRO
August 29, 2022
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
OpenCode Introduction
nearme_tech
PRO
0
14
【Browser Automation × AI】 Stagehandを試してみよう
nearme_tech
PRO
0
53
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
60
CopilotKit + AG-UIを学ぶ
nearme_tech
PRO
3
280
Tile38 Overview
nearme_tech
PRO
0
65
Rust 製のコードエディタ “Zed” を使ってみた
nearme_tech
PRO
0
880
実践で使えるtorchのテンソル演算
nearme_tech
PRO
0
39
ローカルLLMを⽤いてコード補完を⾏う VSCode拡張機能を作ってみた
nearme_tech
PRO
0
680
初めてのmarimo (ハンズオン)
nearme_tech
PRO
0
53
Other Decks in Technology
See All in Technology
BIツール「Omni」の紹介 @Snowflake中部UG
sagara
0
230
バックオフィスPJのPjMをコーポレートITが担うとうまくいく3つの理由
yueda256
1
290
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
10
77k
不確実性と戦いながら見積もりを作成するプロセス/mitsumori-process
hirodragon112
1
200
すごいぞManaged Kubernetes
harukasakihara
1
360
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
11k
「できない」のアウトプット 同人誌『精神を壊してからの』シリーズ出版を 通して得られたこと
comi190327
3
620
"まず試す"ためのDatabricks Apps活用法 / Databricks Apps for Early Experiments and Validation
nttcom
1
210
会社紹介資料 / Sansan Company Profile
sansan33
PRO
16
410k
最大のアウトプット術は問題を作ること
ryoaccount
0
320
互換性のある(らしい)DBへの移行など考えるにあたってたいへんざっくり
sejima
PRO
0
560
ZOZOTOWNリプレイスでのSkills導入までの流れとこれから
zozotech
PRO
4
3k
Featured
See All Featured
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
510
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
430
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.3k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.6k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
120
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
A designer walks into a library…
pauljervisheath
211
24k
Transcript
0 強化学習への入り口 part2 2022-08-26 第11回NearMe技術勉強会 TakumaKakinoue
1 目次 • 前回までの内容 • 探索と利用のトレードオフ問題 • 探索と利用のトレードオフを解決するアルゴリズム
2 前回までの内容 • 強化学習とは,環境との相互作用を通して,貰える報酬が高くなるような方策を学習する 機械学習手法の一種 • 報酬は即時的なもの,価値は将来も考慮したもの • ある状態stにおいてある行動atを選択する状態行動価値(Q値)は以下の式で表される
3 探索と利用のトレードオフ問題 • 強化学習では,探索と利用のバランスを上手く調節するのが肝! ◦ 探索が不十分だと,広域的な最適解が得られない可能性がある ◦ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある • (例)多腕バンディット問題
◦ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦 略が良いか ◦ パッと思いつく戦略としては, ▪ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索) ▪ その後,当選確率が最も高かったアームを引き続ける(利用) ◦ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら, その後,そのアームは引かれないことに...
4 探索と利用のトレードオフを解決するアルゴリズム • 行動選択にランダム性を組み込む系 ◦ ε-greedy法 ▪ 行動が離散値の場合,εの確率でランダム行動,1-εの確率でQ値が最も高い行動を選択 ◦ 探索ノイズ(ex.
OUノイズ,ガウスノイズ) ▪ 行動が連続値の場合,行動に特定の確率分布からサンプリングされた値を加える ◦ Softmax方策 ▪ Q値の分布に応じた確率分布に基づくランダムな行動選択 • 報酬関数に探索する価値を組み込む系 ◦ Soft-Q学習 ▪ 確率的方策において,行動選択の確率分布のエントロピーを報酬に組み込み最大化 ◦ 好奇心アルゴリズム ▪ 報酬関数に,観測回数が少ない状態を訪れるほど報酬が高くなるような関数を組み込む
5 参考資料 • MATLABおよびSimulinkによる強化学習 ebook
6 Thank you