論文まとめ「Generalization through Simulation」

Generalization through Simulation: Integrating Simulated and Real Data into Deep
Reinforcement Learning for Vision-Based Autonomous Flight 総合文化研究科広域科学専攻金子研究室 M2 市川航平

Paper Information • Generalization through Simulation - Katie Kang, et
al. (BAIR) - https://arxiv.org/abs/1902.03701 - 2019年3月現在arxivのみ - (デモ動画) https://www.youtube.com/watch?time_continue=1&v=Rb2a6lSQSas - (github) https://github.com/gkahn13/GtS

Paper Information • Generalization through Simulation - 少量の実データと大量のシミュレーションデータを利用して、現実の未知の環境においてドローンを衝突回避しながら自律飛行させることに成功 -
シミュレーションデータから視覚システムを、実データから制御サブシステムを学習 - 転移学習の一種

Outline • Introduction • Related Work • Problem Formulation •
Generalization through Simulation • Experiments • Conclusion & Comment

Introduction • 強化学習による方策の汎化性能は学習データの質と多様性に大きく依存するが、このデータの収集には大きなコストが必要となる。 • 本論文では、シミュレーションデータと実データを組み合わせて学習することで汎化性能を向上させる手法を提案する。 • SimとRealのギャップについて -
見え方の違いなどのギャップは不変性の正規化によって対応可能だが、 - ロボットの動きや流体力学的なダイナミクスなど構造的な差異がある場合はギャップを埋めることが不可能としている。

Introduction • fine-tuningによってこれらのギャップに対応することは可能だが、素朴な実装では失敗する（Experimentsで後述） • そこでエージェントの物理的な動きは実データから学習し、未知の環境への汎化を行えるような視覚システムをシミュレーションデータから学習する。 - この際視覚システムはImageNetやVAEの学習によって得られた表現よりもタスク固有の学習によって得られた表現の方が良いことが分かった
- タスク固有の学習＝（シミュレーション環境内での）Q学習 • 実験で試した他の手法よりも4倍の距離を自律飛行できた

Related Work • 方策の転移学習 - domain adaptation - feature space
learning →これらは、タスクに依存しない特徴量抽出を知覚モデルとして学習する • SimとRealのギャップを埋める - SimをRealに、あるいはRealをSimに近づけるもの - Simに擾乱を加えるもの →方策の過学習を防ぐのが目的 • （教師あり学習における）fine-tuning

Problem Formulation 時刻tでとる行動：時刻tにおける状態：状態の遷移は現在の状態と行動から確率的に決定される：（この遷移確率はエージェントは未知）割引率：強化学習の目的：状態に応じて取る行動を決定する関数（方策）を得ること方策：
どのような方策が「良い」方策なのか →現在の状態から未来にかけて得られる（であろう）報酬の和の期待値（割引報酬和）を最大化するような方策。割引報酬和：また、ある状態における行動によってエージェントは報酬を受け取る：強化学習の枠組みの整理

Generalization through Simulation • 考察 - シミュレーションデータ・visual diversityに富む・dynamicsが非現実的
- 実データ・accurate signals about the dynamics ・visual diversityが少ない →シミュレーションデータをvisual perception systemの学習に利用し、実データは dynamicsの学習に利用する

Generalization through Simulation • 具体的な学習スキーム（論文中のC.Algorithm Overviewに対応） a. シミュレーション環境中で Deep Q
Networkを学習 b. action-conditioned reward prediction modelを作成する。その際入力画像を処理する CNNの重みはa.で学習済みのものを利用し、重みは固定したままにする c. 実データを利用して action-conditioned reward prediction modelを学習する

• Action-conditioned reward predictor model ◦ Reward-predictor関数：現在の状態とその後H時刻分の行動列を引数として、その時得られる報酬列を出力とする関数。 ◦ ◦
◦ 以下の二乗誤差の最小化によってreward-predictor関数のパラメータθが得られる。 • 行動は累積報酬を最大化するように選択する。ただし、 Generalization through Simulation 11 →cross entropy method

Generalization through Simulation • action-conditioned reward predictorについて - Q学習などの価値ベースの手法に似ているが、Q学習が安定した学習のためには大量の学習データが必要なのに対して、本手法は少量のデータで安定して学習
できる（∵教師あり学習の設定と同じになるため） - モデルベース制御にも似ているが、あくまで本手法は報酬のダイナミクスを学習する点で異なっている。　また、状態が高次元な時はモデルベース手法よりも有利に働くことが知られている。

Generalization through Simulation • action-conditioned reward predictorについて - デメリットとしてはHが有限なため水平線効果が大きく効いてきてしまうが、今回のタスクでは（壁などとの）衝突を回避することが目的なので水平線までの距離が短く
ても有効であった。 - LSTMに入力画像から得られた特徴量ベクトルに加えて行動を再帰的に入力し、報酬列を予測する。

Generalization through Simulation • Learning from Simulation 実データでのaction-conditioned reward predictorだけでは過学習してしまう。
◦ SOTAなシミュレーション環境は現実に近い多様な視覚情報を生成可能 ◦ シミュレーションから学習する特徴量は（実データで学習させたいタスクと整合している）タスク固有のものである必要がある →シミュレーション環境でQ学習を行い、得られたパラメータをaction-conditioned reward predictorに転移する。

Generalization through Simulation • Q関数：現在の状態と行動を引数として、その後最適な行動を取り続けた時の報酬和の期待値を出力とする関数。 • Q学習を行う理由は ◦ データが多いため安定して学習が可能
◦ 水平線までの距離を長くとれる →特徴量抽出がより上手くいきそう） • 以下のBellman errorと呼ばれる量の最小化によってQ関数のパラメータθが得られる。 • 行動はQ関数が最大になるように決定する

Experiments • 設定 - 機体：Crazyflie 2.0 - サイズ：92x92x29mm - 重量：27g
- 行動空間：前進速度、ヨーレート、高さ - 搭載カメラ：3.4gの単眼カメラ →4分間の持続飛行が可能

Experiments • シミュレーション環境：Gibson simulatorを使用 • 流体力学などは一切考慮していない • 16の異なる環境、別々のインスタンスでQ学習を行う。その際報酬は衝突しなかった場合0、衝突した場合-1と設定した •
最後に一つのQ関数を全てのデータを利用して学習（合計1700万のデータ点）

Experiments • 実データ：UCバークレーの廊下で1時間（シミュレーションで得られた方策に基づいて）ドローンを飛ばして14,000のデータ点を得た • ネットワークに入力される状態：直近4時刻分のカメラから得られた画像（グレースケール、72x96） • 行動空間は一次元で、yaw angular
velocityのみ（前進速度と高さは固定） • 報酬の割引率は1 • 水平線Hは12（3秒後の未来についてまでの行動・報酬予測に対応）

Experiments • 各手法の比較 - シミュレーション環境のみで方策まで学習（Q学習） - Q関数をシミュレーション環境で学習させた後、実データでネットワーク全体を fine-tuning（Q学習） - Q関数をシミュレーション環境で学習させた後、実データでCNN以外の部分を
fine-tuning（Q学習） - 実データのみでaction-conditioned reward predictorを学習 - ImageNetで学習させたモデルをCNNとして使用した上で、実データで action-conditioned reward predictorを学習 - シミュレーション環境でVAEを学習させ、そこで得られた特徴量を実データにおけるaction-conditioned reward predictorの学習に利用

Experiments 各手法の違い・結果は下記の表にまとめられている

Experiments • 具体的なタスク - Straight Hallway: 学習データに含まれていない直線の廊下を衝突しないように進む→簡単そうに見えるが、提案手法以外では最高でも廊下の4分の1までしか進めない難しいタスク（！） -
Straight Hallway with Tilted Camera: 上と同じ環境だが、単眼カメラが20度傾いて設置されている - Curved Hallway - Zig-zag Hallway →下3つに関しては、提案手法以外だとどれも5回やって一度も成功せず。

Experiments 各タスクの状況と単眼カメラの画像→

Conclusions & Comments どんなもの？先行研究との差分は？技術や手法のキモは？次に読むべき論文は？議論点どうやって有効だと証明した？少数の実データからSim2Realの転移学習を実現する
強化学習手法認識部分と行動部分をそれぞれ別のデータセットで学習させることで過学習を防ぎつつ効率よくデータを学習に利用することができた CNN部分をシミュレーション環境でQ学習させることによって学習させ、得られた特徴抽出器を実データで方策を学習する際に用いる。その際方策の学習はaction-conditioned reward predictorによって行う。実際に未知の環境でドローンを自律飛行させることに成功タスクがまだまだ簡単なもので、社会への応用はまだまだ遠そう。利用する実データを増やせばこの枠組みでより複雑なタスクが解ける？ • Gibson Env: Real-World Perception for Embodied Agents • Self-supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation

Conclusions & Comments 引用されている論文のうち、個人的に大事そうなもの • Gibson Env: Real-World Perception for
Embodied Agents (https://arxiv.org/abs/1808.10654) →本手法のシミュレーション環境を構築するためのツール • Self-supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation (https://arxiv.org/abs/1709.10489) →同じくBAIRによる論文。実データの学習がこれに基づいている。

論文まとめ「Generalization through Simulation」

論文まとめ「Generalization through Simulation」

Kohei Ichikawa

More Decks by Kohei Ichikawa

Other Decks in Science

Featured

Transcript

Generalization through Simulation: Integrating Simulated and Real Data into Deep

Paper Information • Generalization through Simulation - Katie Kang, et

Paper Information • Generalization through Simulation - 少量の実データと大量のシミュレーションデータを利用して、現実の未知の環境においてドローンを衝突回避しながら自律飛行させることに成功 -

Outline • Introduction • Related Work • Problem Formulation •

Related Work • 方策の転移学習 - domain adaptation - feature space

Generalization through Simulation • 考察 - シミュレーションデータ・visual diversityに富む・dynamicsが非現実的

Generalization through Simulation • 具体的な学習スキーム（論文中のC.Algorithm Overviewに対応） a. シミュレーション環境中で Deep Q

• Action-conditioned reward predictor model ◦ Reward-predictor関数：現在の状態とその後H時刻分の行動列を引数として、その時得られる報酬列を出力とする関数。 ◦ ◦

Generalization through Simulation • action-conditioned reward predictorについて - Q学習などの価値ベースの手法に似ているが、Q学習が安定した学習のためには大量の学習データが必要なのに対して、本手法は少量のデータで安定して学習

Generalization through Simulation • Learning from Simulation 実データでのaction-conditioned reward predictorだけでは過学習してしまう。

Generalization through Simulation • Q関数：現在の状態と行動を引数として、その後最適な行動を取り続けた時の報酬和の期待値を出力とする関数。 • Q学習を行う理由は ◦ データが多いため安定して学習が可能

Experiments • 設定 - 機体：Crazyflie 2.0 - サイズ：92x92x29mm - 重量：27g

Experiments • シミュレーション環境：Gibson simulatorを使用 • 流体力学などは一切考慮していない • 16の異なる環境、別々のインスタンスでQ学習を行う。その際報酬は衝突しなかった場合0、衝突した場合-1と設定した •

Experiments 各手法の違い・結果は下記の表にまとめられている

Experiments • 具体的なタスク - Straight Hallway: 学習データに含まれていない直線の廊下を衝突しないように進む→簡単そうに見えるが、提案手法以外では最高でも廊下の4分の1までしか進めない難しいタスク（！） -

Experiments 各タスクの状況と単眼カメラの画像→

Conclusions & Comments どんなもの？先行研究との差分は？技術や手法のキモは？次に読むべき論文は？議論点どうやって有効だと証明した？少数の実データからSim2Realの転移学習を実現する

Conclusions & Comments 引用されている論文のうち、個人的に大事そうなもの • Gibson Env: Real-World Perception for