Pro Yearly is on sale from $80 to $50! »

強化学習を可視化するchainerrl visualizerを動かしてみた

3ff23de3d76bebc9b63f18a49122ea7f?s=47 mogamin
January 28, 2019

強化学習を可視化するchainerrl visualizerを動かしてみた

強化学習を可視化するchainerrl visualizerを動かしてみた

3ff23de3d76bebc9b63f18a49122ea7f?s=128

mogamin

January 28, 2019
Tweet

Transcript

  1. 強化学習を可視化する chainerrl-visualizerを動かしてみた 28.Jan.2019 Machine Learning Casual Talks #8 LT Takashi,MOGAMI

    @mogamin
  2. WHO AM I? Takashi,MOGAMI / @mogamin ウルシステムズ株式会社 シニアコンサルタント 画像処理(OpenCV)、ディープラーニング系をメインに業務をしておりま す。最近では強化学習を使った研究開発プロジェクトを推進しています

    が、時間を見つけてはkaggleやSIGNATEで技術を磨いております。 - Scrum Master - AWS Certified Solutions Architect Professional
  3. None
  4. AGENDA - 「ありの行列」の話 - 強化学習とは - 強化学習のつらい所 - chainerrl-visualizer -

    try! demo. ※本内容は個人の見解です。所属組織とは一切関係ありません。
  5. 強化学習とは - エージェント(学習の主体)が環境から得られる状態に対し て、報酬を最大化するように行動を学習する。 - 何がうれしいかというと、正答データがない問題でも報 酬を正しく定義できれば問題を解くことができる。 ※https://www.slideshare.net/ssuserf2c42e/20190125-minecraft-129160073 Agent Environment

    action observation, reward
  6. 強化学習のつらい所 - 報酬設計がむずい - いつ報酬を与えるべきか、いつ罰を与えるべきか - マルチワーカーが苦手 - 画像認識のようにGPUをフルに使えない。CPUパワーに依存する -

    シュミレータの開発コストが高い - 実際の環境、状態を網羅するシュミレータが必要 - マルコフ決定過程をちゃんと成立させて作る - 状態が変わらなければ意味がないaction? - 方策設計はどうあるべきか - いつまでも奇跡、神の手を待っていると永遠に終わらない。 - アルゴリズム部、Deep Q-Network部、超絶 試行錯誤 - やってみないとわからない。評価軸は?まずは可視化が必要!
  7. そこで、Chainerrl-Visualizer - XXX すごく簡単。 $ git clone chainerrl-visualizer $ cd

    いずれかのexampleフォルダへ... $ python ./main.py
  8. Chainerrl-Visualizer - XXX 当該STEPにおけるSTEP時 系列なOUTPUT層の出力値 (100%積上げ) STEP時系列なOUTPUT層 の出力値(100%積上げ) その時の画面とGrad-CAM による特徴抽出の可視化

  9. try! demo.

  10. ありがとうございました。 We are now hiring! @mogaminまで