Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Sim-to-Real

tt1717
October 25, 2023

[論文サーベイ] Survey on Sim-to-Real

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real, Kanishka Rao, Chris Harris, Alex Irpan, et al. (Google Brain Mountain View USA, et al.) [CVPR'20] (Cited by:19)
2.Solving Rubik’s Cube with a Robot Hand,
Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
3.Learning quadrupedal locomotion over challenging terrain,
Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen, et al. (Robotic Systems Lab ETH Zurich Zurich Switzerland, et al.) [Science Robotics'20] (Cited by:569)

tt1717

October 25, 2023
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Sim-to-Real Solving Rubik’s Cube with a Robot Hand,

    Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851) RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real, Kanishka Rao, Chris Harris, Alex Irpan, et al. (Google Brain Mountain View USA, et al.) [CVPR'20] (Cited by:19) 1/20 2023/7/12 Learning quadrupedal locomotion over challenging terrain, Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen, et al. (Robotic Systems Lab ETH Zurich Zurich Switzerland, et al.) [Science Robotics'20] (Cited by:569)
  2. 背景 (2/2)  5/20 ❏ システム同定 ❏ シミュレーション自体を現実に近づける ❏ ドメイン適応 ❏

    シミュレーションと現実での変換を学習 ❏ ドメインランダム化 ❏ シミュレーション内で幅広い範囲を学習 “Hatena Blog”より引用
  3. 6/20 ❏ 概要:Sim2Realの手法としてドメイン適応を用いた強化学習 ❏ ポイント:RLのタスクに関する情報を保持したままドメイン変換するこ とで,タスクに有用な情報が変換先に含まれる ❏ 手法:CycleGANを用いた画像のドメイン変換において,「シミュレー ション画像と実画像に対するQ関数が一致」するという制約 (loss)を追加

    ❏ 実験結果:物体把持タスクにおいてドメインランダム化やCycleGANによ るドメイン変換を用いた先行研究より高い成功率 RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real, Kanishka Rao, Chris Harris, Alex Irpan, et al. (Google Brain Mountain View USA, et al.) [CVPR'20] (Cited by:19)
  4. 7/20 概要 ❏ 目標 人間のように動作するロボットアームを製作 ❏ 解決策 シミュレーションのみでモデル学習し,そのデータを現実環境に適用 ❏ 結果

    ロボットアームが人間のようにルービックキューブを解くことに成功 Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  5. 8/20 シミュレーションによる学習 1. ADRの使用 2. 制御方針の学習 3. 状態推定ネットワーク データの変換による現実への適用 1.

    推定ネットワークと制御方針を 連結 2. センサ内蔵ルービックキューブ Giiker Cubeの使用 ※制御方針を検証するためにいくつ かの実験でGiiker Cubeを使用 Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  6. 9/20 向き変更タスク ❏ ブロックを目標方向に回転 ❏ ブロックの回転が目標と0.4[rad] 以内で一致すればゴール判定 ❏ ゴール判定後,次のゴールが生成 ルービックキューブタスク

    ❏ 回転:1つの面を90度回転 ❏ 反転:別の面を一番上に移動 ❏ 「反転」と「上面の回転」を組み 合わせる Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851) ※左上はゴール目標
  7. 10/20 Giiker Cube ❏ ルービックキューブの状態を視覚 だけで検知するのは困難 ❏ センサーとBluetoothが内蔵 ❏ 90度の角度分解能であり,状態

    を追跡するのに不十分 Giiker Cube (カスタム) ❏ Giiker Cubeのキューブレット要 素以外の部品を再設計 ❏ 5度の角度分解能を実現 Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  8. 11/20 ADRの概要 1. 環境の分布からサンプリングし,訓練データを生成 2. モデル (制御方針or視覚状態の推定値)を最適化 3. 現在の分布におけるモデル性能の評価 4.

    環境の分布を更新 5. 1〜4を繰り返す ❏ ランダム化を手動で調整する必要がない Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  9. 12/20 制御方針 ❏ 報酬 1. 現在の状態とゴールとの距離差 2. ゴールが達成されると+5 3. キューブ/ブロックを落とすと-20

    ❏ 強化学習アルゴリズム 1. PPOを使用 2. 方策アーキテクチャにReLU活性化を用いた単一のフィード フォワード層とそれに続く単一のLSTM層を使用 ❏ エピソード修了条件 1. 50回連続して成功 2. キューブ/ブロックを落とす 3. 次に生成されたゴールに到達せずにタイムアウト Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  10. 13/20 視覚情報からの状態推定 ❏ 非対称な中心ステッカーによる視覚情報 右図のようにマスの片隅を切り出して,回転さ せた時に対称性が無いように工夫 ❏ ビジョンモデル 1. ケージの左,右,上に設置された3台のカ

    メラからの画像を入力とする 2. Giiker Cube (カスタム)を使用して角度情 報を取得する Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  11. 14/20 ビジョンモデルのアーキテクチャ ❏ パラメータ同一のResNet50を使用 1. 位置と向きを予測可能 2. 6つの面の角度を予測することはス テッカーを使ったキューブでも困難 ❏

    面の角度予測の分割 1. アクティブな軸 a. 3つの軸のうち動いているもの 2. アクティブな面の角度 a. 2つの面の角度[-π/4,π/4] 3. 上面の角度 a. 絶対的な角度[-π,π] Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  12. 15/20 結果 ❏ 実験設定 1. ブロック向き変更タスク 2. 連続で成功した数で測定 3. ブロック落下or50回連続成功orタイム

    アウトで終了 ❏ Sim2Sim 1. ADRで方策を学習 2. 手動で調整されたランダム化を持つ環境 の分布で評価 訓練時間が5〜6日程度で連続成功数が約40 回で収束している Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  13. 16/20 結果 ❏ 実験設定 1. 実環境で10回,sim上で500回の試行を行い連続成功数を測定 ❏ Sim2Real 先行研究のベースラインと比較して平均値で約2倍,中央値で約3倍 Solving

    Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851) XL,XXLは数ヶ月以 上の長時間の学習
  14. 17/20 結果 ❏ ルービックキューブ (定量評価) 1. 成功 (sim)は「反転と回転」の数を示す 2. 成功率のHalfはスクランブルを半分適用した場合で,Fullは全部適用

    ※スクランブルとはルービックキューブをシャッフルする行為 ADR (XXL)においてFullで10回中2回成功 Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  15. 18/20 結果 ❏ ルービックキューブ (定性評価) 1. ADR (XXL)の最適方策を使用した結果 2. 様々な摂動を与えた結果

    a. 摂動に対する訓練なしで,すべての摂動に対してロバストな結果 Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)
  16. まとめ RL-CycleGAN:Sim2Realにおけるドメイン適応 20/20 Solving Rubik’s Cube with a Robot Hand:ドメインランダム化

    Learning robust perceptive locomotion for quadrupedal robots in the wild:simでのみ得られる情報を活用 ❏ 傾向と今後 ❏ シミュレーションベースの大規模モデルがくるかも ❏ 実機実装の際にはドメインランダム化が有効そう
  17. 21/20 制御方針 ❏ 報酬 1. 現在の状態とゴールとの距離差 2. ゴールが達成されると+5 3. キューブ/ブロックを落とすと-20

    ❏ 強化学習アルゴリズム 1. PPOを使用 2. 方策アーキテクチャにReLU活性化を用いた単一のフィード フォワード層とそれに続く単一のLSTM層を使用 ❏ エピソード修了条件 1. 50回連続して成功 2. キューブ/ブロックを落とす 3. 次に生成されたゴールに到達せずにタイムアウト Solving Rubik’s Cube with a Robot Hand, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, et al. (OpenAI) [arXiv'19] (Cited by:851)