Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
強化学習を可視化するchainerrl visualizerを動かしてみた
Search
mogamin
January 28, 2019
Technology
1
600
強化学習を可視化するchainerrl visualizerを動かしてみた
強化学習を可視化するchainerrl visualizerを動かしてみた
mogamin
January 28, 2019
Tweet
Share
More Decks by mogamin
See All by mogamin
エンプラRAG構築の最適解!Oracle AI Vector Searchによる明日からできるRAG!
mogamin
1
210
RDB脳はあなたに送る KVSモデリングのノウハウを公開! AWS DynamoDB、AzureCosmosDBでのKVS設計はこうしよう!
mogamin
1
610
Deep dive into application-level network management & observability with AppMesh
mogamin
0
830
Introducing Amazon SageMaker AutoPilot
mogamin
1
600
EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks
mogamin
0
150
Pytorch強化学習プラットフォーム? Horizonのドキュメントを読む
mogamin
0
2.2k
Other Decks in Technology
See All in Technology
ECS モニタリング手法大整理
yendoooo
1
120
Exadata Database Service on Dedicated Infrastructure セキュリティ、ネットワーク、および管理について
oracle4engineer
PRO
1
360
第64回コンピュータビジョン勉強会@関東(後編)
tsukamotokenji
0
220
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
8.6k
Amazon Bedrock AgentCore でプロモーション用動画生成エージェントを開発する
nasuvitz
6
400
AIとTDDによるNext.js「隙間ツール」開発の実践
makotot
5
460
kintone開発チームの紹介
cybozuinsideout
PRO
0
73k
歴代のWeb Speed Hackathonの出題から考えるデグレしないパフォーマンス改善
shuta13
6
590
Go で言うところのアレは TypeScript で言うとコレ / Kyoto.なんか #7
susisu
1
130
datadog-distribution-of-opentelemetry-collector-intro
tetsuya28
0
240
知られざるprops命名の慣習 アクション編
uhyo
10
2.1k
Yahoo!広告ビジネス基盤におけるバックエンド開発
lycorptech_jp
PRO
1
250
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
For a Future-Friendly Web
brad_frost
179
9.9k
Code Reviewing Like a Champion
maltzj
525
40k
Into the Great Unknown - MozCon
thekraken
40
2k
Building Adaptive Systems
keathley
43
2.7k
KATA
mclloyd
32
14k
A better future with KSS
kneath
239
17k
Art, The Web, and Tiny UX
lynnandtonic
302
21k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Transcript
強化学習を可視化する chainerrl-visualizerを動かしてみた 28.Jan.2019 Machine Learning Casual Talks #8 LT Takashi,MOGAMI
@mogamin
WHO AM I? Takashi,MOGAMI / @mogamin ウルシステムズ株式会社 シニアコンサルタント 画像処理(OpenCV)、ディープラーニング系をメインに業務をしておりま す。最近では強化学習を使った研究開発プロジェクトを推進しています
が、時間を見つけてはkaggleやSIGNATEで技術を磨いております。 - Scrum Master - AWS Certified Solutions Architect Professional
None
AGENDA - 「ありの行列」の話 - 強化学習とは - 強化学習のつらい所 - chainerrl-visualizer -
try! demo. ※本内容は個人の見解です。所属組織とは一切関係ありません。
強化学習とは - エージェント(学習の主体)が環境から得られる状態に対し て、報酬を最大化するように行動を学習する。 - 何がうれしいかというと、正答データがない問題でも報 酬を正しく定義できれば問題を解くことができる。 ※https://www.slideshare.net/ssuserf2c42e/20190125-minecraft-129160073 Agent Environment
action observation, reward
強化学習のつらい所 - 報酬設計がむずい - いつ報酬を与えるべきか、いつ罰を与えるべきか - マルチワーカーが苦手 - 画像認識のようにGPUをフルに使えない。CPUパワーに依存する -
シュミレータの開発コストが高い - 実際の環境、状態を網羅するシュミレータが必要 - マルコフ決定過程をちゃんと成立させて作る - 状態が変わらなければ意味がないaction? - 方策設計はどうあるべきか - いつまでも奇跡、神の手を待っていると永遠に終わらない。 - アルゴリズム部、Deep Q-Network部、超絶 試行錯誤 - やってみないとわからない。評価軸は?まずは可視化が必要!
そこで、Chainerrl-Visualizer - XXX すごく簡単。 $ git clone chainerrl-visualizer $ cd
いずれかのexampleフォルダへ... $ python ./main.py
Chainerrl-Visualizer - XXX 当該STEPにおけるSTEP時 系列なOUTPUT層の出力値 (100%積上げ) STEP時系列なOUTPUT層 の出力値(100%積上げ) その時の画面とGrad-CAM による特徴抽出の可視化
try! demo.
ありがとうございました。 We are now hiring! @mogaminまで