$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習を可視化するchainerrl visualizerを動かしてみた
Search
mogamin
January 28, 2019
Technology
1
620
強化学習を可視化するchainerrl visualizerを動かしてみた
強化学習を可視化するchainerrl visualizerを動かしてみた
mogamin
January 28, 2019
Tweet
Share
More Decks by mogamin
See All by mogamin
エンプラRAG構築の最適解!Oracle AI Vector Searchによる明日からできるRAG!
mogamin
1
220
RDB脳はあなたに送る KVSモデリングのノウハウを公開! AWS DynamoDB、AzureCosmosDBでのKVS設計はこうしよう!
mogamin
1
630
Deep dive into application-level network management & observability with AppMesh
mogamin
0
840
Introducing Amazon SageMaker AutoPilot
mogamin
1
620
EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks
mogamin
0
160
Pytorch強化学習プラットフォーム? Horizonのドキュメントを読む
mogamin
0
2.2k
Other Decks in Technology
See All in Technology
プロダクトマネージャーが押さえておくべき、ソフトウェア資産とAIエージェント投資効果 / pmconf2025
i35_267
2
590
Ruby で作る大規模イベントネットワーク構築・運用支援システム TTDB
taketo1113
1
220
SSO方式とJumpアカウント方式の比較と設計方針
yuobayashi
7
520
文字列の並び順 / Unicode Collation
tmtms
0
160
AWS Bedrock AgentCoreで作る 1on1支援AIエージェント 〜Memory × Evaluationsによる実践開発〜
yusukeshimizu
6
370
WordPress は終わったのか ~今のWordPress の制作手法ってなにがあんねん?~ / Is WordPress Over? How We Build with WordPress Today
tbshiki
1
500
Playwright x GitHub Actionsで実現する「レビューしやすい」E2Eテストレポート
kinosuke01
0
460
Kubernetes Multi-tenancy: Principles and Practices for Large Scale Internal Platforms
hhiroshell
0
120
今からでも間に合う!速習Devin入門とその活用方法
ismk
1
560
Sansanが実践する Platform EngineeringとSREの協創
sansantech
PRO
2
720
Karate+Database RiderによるAPI自動テスト導入工数をCline+GitLab MCPを使って2割削減を目指す! / 20251206 Kazuki Takahashi
shift_evolve
PRO
1
580
AI活用によるPRレビュー改善の歩み ― 社内全体に広がる学びと実践
lycorptech_jp
PRO
1
190
Featured
See All Featured
Designing for humans not robots
tammielis
254
26k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.3k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
What's in a price? How to price your products and services
michaelherold
246
12k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Designing Experiences People Love
moore
143
24k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
How GitHub (no longer) Works
holman
316
140k
Practical Orchestrator
shlominoach
190
11k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.2k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
Transcript
強化学習を可視化する chainerrl-visualizerを動かしてみた 28.Jan.2019 Machine Learning Casual Talks #8 LT Takashi,MOGAMI
@mogamin
WHO AM I? Takashi,MOGAMI / @mogamin ウルシステムズ株式会社 シニアコンサルタント 画像処理(OpenCV)、ディープラーニング系をメインに業務をしておりま す。最近では強化学習を使った研究開発プロジェクトを推進しています
が、時間を見つけてはkaggleやSIGNATEで技術を磨いております。 - Scrum Master - AWS Certified Solutions Architect Professional
None
AGENDA - 「ありの行列」の話 - 強化学習とは - 強化学習のつらい所 - chainerrl-visualizer -
try! demo. ※本内容は個人の見解です。所属組織とは一切関係ありません。
強化学習とは - エージェント(学習の主体)が環境から得られる状態に対し て、報酬を最大化するように行動を学習する。 - 何がうれしいかというと、正答データがない問題でも報 酬を正しく定義できれば問題を解くことができる。 ※https://www.slideshare.net/ssuserf2c42e/20190125-minecraft-129160073 Agent Environment
action observation, reward
強化学習のつらい所 - 報酬設計がむずい - いつ報酬を与えるべきか、いつ罰を与えるべきか - マルチワーカーが苦手 - 画像認識のようにGPUをフルに使えない。CPUパワーに依存する -
シュミレータの開発コストが高い - 実際の環境、状態を網羅するシュミレータが必要 - マルコフ決定過程をちゃんと成立させて作る - 状態が変わらなければ意味がないaction? - 方策設計はどうあるべきか - いつまでも奇跡、神の手を待っていると永遠に終わらない。 - アルゴリズム部、Deep Q-Network部、超絶 試行錯誤 - やってみないとわからない。評価軸は?まずは可視化が必要!
そこで、Chainerrl-Visualizer - XXX すごく簡単。 $ git clone chainerrl-visualizer $ cd
いずれかのexampleフォルダへ... $ python ./main.py
Chainerrl-Visualizer - XXX 当該STEPにおけるSTEP時 系列なOUTPUT層の出力値 (100%積上げ) STEP時系列なOUTPUT層 の出力値(100%積上げ) その時の画面とGrad-CAM による特徴抽出の可視化
try! demo.
ありがとうございました。 We are now hiring! @mogaminまで