Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Rapid Exploration for Open-World Navigation with Latent Goal Models

[Journal club] Rapid Exploration for Open-World Navigation with Latent Goal Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 Rapid Exploration for Open-World Navigation with Latent

    Goal Models Dhruv Shah1, Benjamin Eysenbach2, Nicholas Rhinehart1, Sergey Levine1 (1UC Berkeley, 2Carnegie Mellon University) CoRL 2021 Dhruv Shah, Benjamin Eysenbach, Nicholas Rhinehart and Sergey Levine. "Rapid Exploration for Open-World Navigation with Latent Goal Models." CoRL 2021.
  2. 関連研究:未知の屋外実環境において不十分な性能 ◼ 欠点 ✓ 未知環境適用のための学習方法が不明瞭 ✓ 膨大なサンプル数を要し、事実上シミュレーション環境が前提 4 Model Detail

    ViNG [Shah+ ICRA21] ・ランダムな行動によりトポロジカルなグラフを構築 Active Neural SLAM [Chaplot+ ICLR20] ・RGB観測データとセンサ値からマップと姿勢を推定 ・屋内環境における有力な手法 Active Neural SLAM
  3. 提案手法:RECON (Rapid Exploration Controllers for Outcome-driven Navigation) ◼ ゴールの潜在表現学習とグラフ構築により、未知環境でのnavigationを実現 ◼

    ロボット搭載のRGBカメラ画像のみ使用(= LIDAR等のセンサは不使用) ◼ 事前に短時間の探索を行うことで、任意の地点への誘導が可能 ◼ 3段階構成 ① Prior Experience ② Exploring ③ Navigating 5 ゴールの潜在表現学習 グラフ構築
  4. ① Prior Experience:ゴールの潜在表現𝑧𝑡 𝑔を学習 ◼ 既知環境における教師あり学習(= オフライン学習) ◼ 9つの環境で5000サンプルの軌道を収集 ◼

    Variational Information Bottleneck [Alemi+ ICLR17] に基づきモデル化 ◼ 目標:𝐿を最大化 6 𝑎𝑡 𝑔:最適な行動予測 𝑑𝑡 𝑔:ゴールまでの距離予測 𝑜𝑔 :ゴール地点の画像 𝑜𝑡 :現在の観測画像 𝐿 = 1 |𝒟| Σ (𝑜𝑡,𝑜𝑔,𝑎𝑡 𝑔,𝑑𝑡 𝑔)∈𝒟 𝔼 𝑝𝜙(𝑧𝑡 𝑔|𝑜𝑔,𝑜𝑡) log 𝑞𝜃 𝑎 𝑡 𝑔, 𝑑 𝑡 𝑔 𝑧 𝑡 𝑔, 𝑜𝑡 − 𝛽KL(𝑝𝜃 (⋅ |𝑜𝑔 , 𝑜𝑡 )||𝑟(⋅)) 𝒟:データセット 𝑟:事前分布
  5. ◼ ①のモデルからサブゴールを設定し未知環境を探索 ◼ 目標:グラフの構築とモデルのfine-tuning ◼ 𝑎 𝑡 𝑔は制御、𝑑 𝑡 𝑔はエッジ構築に利用

    7 ② Exploring:トポロジカルなグラフ𝒢を構築 ← モデルのfine-tuning ← グラフの更新 ← case1:ゴールに到達可能ならゴールへ ← case2:未開拓地点ならランダムな地点へ ← case3:それ以外は近辺で最も訪問回数が少ないノードへ
  6. 実験設定:未知環境における2種類の実験 実験1:8つの未知環境において、最大80m離れたゴールへのnavigation ◼ 評価指標:Success weighed by Completion Time (SCT) [Yokoyama+

    IROS21] ◼ 移動距離ではなく移動時間に注目 実験2:非定常的な環境による影響の分析 ◼ 未知障害物の設置や光(天候)の変化 9 SCT = 𝑆 𝑇 max(𝐶, 𝑇) 𝑆:navigation失敗なら0、成功なら1 𝑇:ロボットのダイナミクスを考慮した最短移動時間 𝐶:実際の移動時間 最短経路が最速とは限らない
  7. 定量的結果(実験1):全ての指標で既存手法を凌駕 ◼ ECR:「② Exploring」のcase1でランダムに行動 ◼ 考察 ✓ Exploring Time, Navigation

    Timeともに提案手法が最短 ✓ SCTが既存手法より約30%向上 ✓ 強化学習ベースの手法(e.g. RND [Yuri+ 18])はfine-tuningの効率が悪い可能性 10