Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習を可視化するchainerrl visualizerを動かしてみた

Avatar for mogamin mogamin
January 28, 2019

強化学習を可視化するchainerrl visualizerを動かしてみた

強化学習を可視化するchainerrl visualizerを動かしてみた

Avatar for mogamin

mogamin

January 28, 2019
Tweet

More Decks by mogamin

Other Decks in Technology

Transcript

  1. AGENDA - 「ありの行列」の話 - 強化学習とは - 強化学習のつらい所 - chainerrl-visualizer -

    try! demo. ※本内容は個人の見解です。所属組織とは一切関係ありません。
  2. 強化学習のつらい所 - 報酬設計がむずい - いつ報酬を与えるべきか、いつ罰を与えるべきか - マルチワーカーが苦手 - 画像認識のようにGPUをフルに使えない。CPUパワーに依存する -

    シュミレータの開発コストが高い - 実際の環境、状態を網羅するシュミレータが必要 - マルコフ決定過程をちゃんと成立させて作る - 状態が変わらなければ意味がないaction? - 方策設計はどうあるべきか - いつまでも奇跡、神の手を待っていると永遠に終わらない。 - アルゴリズム部、Deep Q-Network部、超絶 試行錯誤 - やってみないとわからない。評価軸は?まずは可視化が必要!