Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習を可視化するchainerrl visualizerを動かしてみた

mogamin
January 28, 2019

強化学習を可視化するchainerrl visualizerを動かしてみた

強化学習を可視化するchainerrl visualizerを動かしてみた

mogamin

January 28, 2019
Tweet

More Decks by mogamin

Other Decks in Technology

Transcript

  1. AGENDA - 「ありの行列」の話 - 強化学習とは - 強化学習のつらい所 - chainerrl-visualizer -

    try! demo. ※本内容は個人の見解です。所属組織とは一切関係ありません。
  2. 強化学習のつらい所 - 報酬設計がむずい - いつ報酬を与えるべきか、いつ罰を与えるべきか - マルチワーカーが苦手 - 画像認識のようにGPUをフルに使えない。CPUパワーに依存する -

    シュミレータの開発コストが高い - 実際の環境、状態を網羅するシュミレータが必要 - マルコフ決定過程をちゃんと成立させて作る - 状態が変わらなければ意味がないaction? - 方策設計はどうあるべきか - いつまでも奇跡、神の手を待っていると永遠に終わらない。 - アルゴリズム部、Deep Q-Network部、超絶 試行錯誤 - やってみないとわからない。評価軸は?まずは可視化が必要!