Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文まとめ「Generalization through Simulation」

論文まとめ「Generalization through Simulation」

強化学習を用いたドローンの自律飛行タスクにおいて、シミュレーションによるデータと実世界データの性質の違いに着目してSim2Realの転移学習を行った論文(https://arxiv.org/abs/1902.03701 )のまとめスライドです。

Kohei Ichikawa

June 18, 2019
Tweet

More Decks by Kohei Ichikawa

Other Decks in Science

Transcript

  1. Generalization through Simulation: Integrating Simulated and Real Data into Deep

    Reinforcement Learning for Vision-Based Autonomous Flight 総合文化研究科 広域科学専攻 金子研究室 M2 市川 航平
  2. Paper Information • Generalization through Simulation - Katie Kang, et

    al. (BAIR) - https://arxiv.org/abs/1902.03701 - 2019年3月現在arxivのみ - (デモ動画) https://www.youtube.com/watch?time_continue=1&v=Rb2a6lSQSas - (github) https://github.com/gkahn13/GtS
  3. Outline • Introduction • Related Work • Problem Formulation •

    Generalization through Simulation • Experiments • Conclusion & Comment
  4. Related Work • 方策の転移学習 - domain adaptation - feature space

    learning →これらは、タスクに依存しない特徴量抽出を知覚モデルとして学習する • SimとRealのギャップを埋める - SimをRealに、あるいはRealをSimに近づけるもの - Simに擾乱を加えるもの →方策の過学習を防ぐのが目的 • (教師あり学習における)fine-tuning
  5. Problem Formulation 時刻tでとる行動: 時刻tにおける状態: 状態の遷移は現在の状態と行動から確率的に決定される: (この遷移確率はエージェントは未知) 割引率: 強化学習の目的:状態に応じて取る行動を決定する関数( 方策)を得ること 方策:

    どのような方策が「良い」方策なのか →現在の状態から未来にかけて得られる(であろう)報酬の和の期待値(割引報酬和)を最大 化するような方策。 割引報酬和: また、ある状態における行動によってエージェントは報酬を受け取る: 強化学習の枠組みの整理
  6. Generalization through Simulation • 考察 - シミュレーションデータ ・visual diversityに富む ・dynamicsが非現実的

    - 実データ ・accurate signals about the dynamics ・visual diversityが少ない →シミュレーションデータをvisual perception systemの学習に利用し、実データは dynamicsの学習に利用する
  7. Generalization through Simulation • 具体的な学習スキーム(論文中のC.Algorithm Overviewに対応) a. シミュレーション環境中で Deep Q

    Networkを学習 b. action-conditioned reward prediction modelを作成する。その際入力画像を処理する CNNの重み はa.で学習済みのものを利用し、重みは固定したままにする c. 実データを利用して action-conditioned reward prediction modelを学習する
  8. • Action-conditioned reward predictor model ◦ Reward-predictor関数:現在の状態とその後H時刻分の行動列を引数として、その時得ら れる報酬列を出力とする関数。 ◦ ◦

    ◦ 以下の二乗誤差の最小化によってreward-predictor関数のパラメータθが得られる。 • 行動は累積報酬を最大化するように選択する。 ただし、 Generalization through Simulation 11 →cross entropy method
  9. Generalization through Simulation • action-conditioned reward predictorについて - Q学習などの価値ベースの手法に似ているが、Q学習が安定した学習のために は大量の学習データが必要なのに対して、本手法は少量のデータで安定して学習

    できる(∵教師あり学習の設定と同じになるため) - モデルベース制御にも似ているが、あくまで本手法は報酬のダイナミクスを学習 する点で異なっている。  また、状態が高次元な時はモデルベース手法よりも有利に働くことが知られてい る。
  10. Generalization through Simulation • Learning from Simulation 実データでのaction-conditioned reward predictorだけでは過学習してしまう。

    ◦ SOTAなシミュレーション環境は現実に近い多様な視覚情報を生成可能 ◦ シミュレーションから学習する特徴量は(実データで学習させたいタスクと整合 している)タスク固有のものである必要がある →シミュレーション環境でQ学習を行い、得られたパラメータをaction-conditioned reward predictorに転移する。
  11. Generalization through Simulation • Q関数:現在の状態と行動を引数として、その後最適な行動を取り続けた時の報酬 和の期待値を出力とする関数。 • Q学習を行う理由は ◦ データが多いため安定して学習が可能

    ◦ 水平線までの距離を長くとれる →特徴量抽出がより上手くいきそう) • 以下のBellman errorと呼ばれる量の最小化によってQ関数のパラメータθが得ら れる。 • 行動はQ関数が最大になるように決定する
  12. Experiments • 設定 - 機体:Crazyflie 2.0 - サイズ:92x92x29mm - 重量:27g

    - 行動空間:前進速度、ヨーレート、高さ - 搭載カメラ:3.4gの単眼カメラ →4分間の持続飛行が可能
  13. Experiments • 各手法の比較 - シミュレーション環境のみで方策まで学習(Q学習) - Q関数をシミュレーション環境で学習させた後、実データでネットワーク全体を fine-tuning(Q学習) - Q関数をシミュレーション環境で学習させた後、実データでCNN以外の部分を

    fine-tuning(Q学習) - 実データのみでaction-conditioned reward predictorを学習 - ImageNetで学習させたモデルをCNNとして使用した上で、実データで action-conditioned reward predictorを学習 - シミュレーション環境でVAEを学習させ、そこで得られた特徴量を実データにおけ るaction-conditioned reward predictorの学習に利用
  14. Experiments • 具体的なタスク - Straight Hallway: 学習データに含まれていない直線の廊下を衝突しないように 進む→簡単そうに見えるが、提案手法以外では最高でも廊下の4分の1までしか進 めない難しいタスク(!) -

    Straight Hallway with Tilted Camera: 上と同じ環境だが、単眼カメラが20度傾い て設置されている - Curved Hallway - Zig-zag Hallway →下3つに関しては、提案手法以外だとどれも5回やって一度も成功せず。
  15. Conclusions & Comments どんなもの? 先行研究との差分は? 技術や手法のキモは? 次に読むべき論文は? 議論点 どうやって有効だと証明した? 少数の実データからSim2Realの転移学習を実現する

    強化学習手法 認識部分と行動部分をそれぞれ別のデータセットで学習 させることで過学習を防ぎつつ効率よくデータを学習に 利用することができた CNN部分をシミュレーション環境でQ学習させることによって学 習させ、得られた特徴抽出器を実データで方策を学習する際 に用いる。その際方策の学習はaction-conditioned reward predictorによって行う。 実際に未知の環境でドローンを自律飛行させることに成 功 タスクがまだまだ簡単なもので、社会への応用はまだま だ遠そう。利用する実データを増やせばこの枠組みでよ り複雑なタスクが解ける? • Gibson Env: Real-World Perception for Embodied Agents • Self-supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation
  16. Conclusions & Comments 引用されている論文のうち、個人的に大事そうなもの • Gibson Env: Real-World Perception for

    Embodied Agents (https://arxiv.org/abs/1808.10654) →本手法のシミュレーション環境を構築するためのツール • Self-supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation (https://arxiv.org/abs/1709.10489) →同じくBAIRによる論文。実データの学習がこれに基づいている。