[Journal club] Rapid Exploration for Open-World Navigation with Latent Goal Models

慶應義塾大学杉浦孔明研究室是方諒介 Rapid Exploration for Open-World Navigation with Latent
Goal Models Dhruv Shah1, Benjamin Eysenbach2, Nicholas Rhinehart1, Sergey Levine1 (1UC Berkeley, 2Carnegie Mellon University) CoRL 2021 Dhruv Shah, Benjamin Eysenbach, Nicholas Rhinehart and Sergey Levine. "Rapid Exploration for Open-World Navigation with Latent Goal Models." CoRL 2021.

概要背景 ✓ 未知の屋外実環境における、画像による頑健なnavigation 提案 ✓ 大規模オフラインデータを用いた、ゴールまでの距離と行動に関する潜在変数モデル ✓ 探索時におけるトポロジカルなグラフの構築結果
✓ 20分以内の探索で最大で80m遠方までのnavigationに成功 ✓ 非定常的な環境への頑健性を確認 2

背景：実環境navigationにおいて頑健性は重要 ◼ タスク：未知の屋外実環境において、画像で指定されたゴールへ移動 ◼ ロボットに搭載されたRGBカメラ画像のみ利用可 ◼ 課題 ✓ 非定常的な要素(e.g. 光)
✓ 学習データと実環境の未知データとの差異 3 ゴール画像エリア探索 navigation ロボット (Clearpath Jackal) 既知未知

関連研究：未知の屋外実環境において不十分な性能 ◼ 欠点 ✓ 未知環境適用のための学習方法が不明瞭 ✓ 膨大なサンプル数を要し、事実上シミュレーション環境が前提 4 Model Detail
ViNG [Shah+ ICRA21] ・ランダムな行動によりトポロジカルなグラフを構築 Active Neural SLAM [Chaplot+ ICLR20] ・RGB観測データとセンサ値からマップと姿勢を推定・屋内環境における有力な手法 Active Neural SLAM

提案手法：RECON (Rapid Exploration Controllers for Outcome-driven Navigation) ◼ ゴールの潜在表現学習とグラフ構築により、未知環境でのnavigationを実現 ◼
ロボット搭載のRGBカメラ画像のみ使用（= LIDAR等のセンサは不使用） ◼ 事前に短時間の探索を行うことで、任意の地点への誘導が可能 ◼ 3段階構成 ① Prior Experience ② Exploring ③ Navigating 5 ゴールの潜在表現学習グラフ構築

① Prior Experience：ゴールの潜在表現𝑧𝑡 𝑔を学習 ◼ 既知環境における教師あり学習（= オフライン学習） ◼ 9つの環境で5000サンプルの軌道を収集 ◼
Variational Information Bottleneck [Alemi+ ICLR17] に基づきモデル化 ◼ 目標：𝐿を最大化 6 𝑎𝑡 𝑔：最適な行動予測 𝑑𝑡 𝑔：ゴールまでの距離予測 𝑜𝑔 ：ゴール地点の画像 𝑜𝑡 ：現在の観測画像 𝐿 = 1 |𝒟| Σ (𝑜𝑡,𝑜𝑔,𝑎𝑡 𝑔,𝑑𝑡 𝑔)∈𝒟 𝔼 𝑝𝜙(𝑧𝑡 𝑔|𝑜𝑔,𝑜𝑡) log 𝑞𝜃 𝑎 𝑡 𝑔, 𝑑 𝑡 𝑔 𝑧 𝑡 𝑔, 𝑜𝑡 − 𝛽KL(𝑝𝜃 (⋅ |𝑜𝑔 , 𝑜𝑡 )||𝑟(⋅)) 𝒟：データセット 𝑟：事前分布

◼ ①のモデルからサブゴールを設定し未知環境を探索 ◼ 目標：グラフの構築とモデルのfine-tuning ◼ 𝑎 𝑡 𝑔は制御、𝑑 𝑡 𝑔はエッジ構築に利用
7 ② Exploring：トポロジカルなグラフ𝒢を構築 ← モデルのfine-tuning ← グラフの更新 ← case1：ゴールに到達可能ならゴールへ ← case2：未開拓地点ならランダムな地点へ ← case3：それ以外は近辺で最も訪問回数が少ないノードへ

◼ スタートからゴールへの最短経路ノードがサブゴール ◼ 目標：画像で指定されたゴールへのnavigation ◼ 同じエリア内ではグラフの再利用が可能 8 ③ Navigating：グラフを基に段階的なサブゴールを設定 ←
𝑣𝑡 ：スタート地点のノード ← 𝑣𝑔 ：ゴール地点のノード ← ゴールまでの通過ノードをサブゴールに設定

実験設定：未知環境における2種類の実験実験1：8つの未知環境において、最大80m離れたゴールへのnavigation ◼ 評価指標：Success weighed by Completion Time (SCT) [Yokoyama+
IROS21] ◼ 移動距離ではなく移動時間に注目実験2：非定常的な環境による影響の分析 ◼ 未知障害物の設置や光（天候）の変化 9 SCT = 𝑆 𝑇 max(𝐶, 𝑇) 𝑆：navigation失敗なら0、成功なら1 𝑇：ロボットのダイナミクスを考慮した最短移動時間 𝐶：実際の移動時間最短経路が最速とは限らない

定量的結果（実験1）：全ての指標で既存手法を凌駕 ◼ ECR：「② Exploring」のcase1でランダムに行動 ◼ 考察 ✓ Exploring Time, Navigation
Timeともに提案手法が最短 ✓ SCTが既存手法より約30%向上 ✓ 強化学習ベースの手法(e.g. RND [Yuri+ 18])はfine-tuningの効率が悪い可能性 10

定性的結果（実験1）：より短い経路を選択 11 提案手法はECRより短い経路を選択 RECON（ECR含む）のみゴールに到達タスク例詳細

定性的結果（実験2）：非定常的な環境に頑健 ◼ 平常時 ◼ 未知障害物を回避 ◼ 光（天候）に影響されづらい 12 ゴミ箱カラーコーン
自動車夕暮れ晴れ雨 / 曇りゴール画像平常時のパス

まとめ背景 ✓ 未知の屋外実環境における、画像による頑健なnavigation 提案 ✓ 大規模オフラインデータを用いた、ゴールまでの距離と行動に関する潜在変数モデル ✓ 探索時におけるトポロジカルなグラフの構築結果
✓ 20分以内の探索で最大で80m遠方までのnavigationに成功 ✓ 非定常的な環境への頑健性を確認 13

Appendix：実装の詳細 14 アーキテクチャハイパーパラメータ

Appendix：その他の疑似コード 15

[Journal club] Rapid Exploration for Open-World...

[Journal club] Rapid Exploration for Open-World Navigation with Latent Goal Models

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 Rapid Exploration for Open-World Navigation with Latent

概要背景 ✓ 未知の屋外実環境における、画像による頑健なnavigation 提案 ✓ 大規模オフラインデータを用いた、ゴールまでの距離と行動に関する潜在変数モデル ✓ 探索時におけるトポロジカルなグラフの構築結果

背景：実環境navigationにおいて頑健性は重要 ◼ タスク：未知の屋外実環境において、画像で指定されたゴールへ移動 ◼ ロボットに搭載されたRGBカメラ画像のみ利用可 ◼ 課題 ✓ 非定常的な要素(e.g. 光)

関連研究：未知の屋外実環境において不十分な性能 ◼ 欠点 ✓ 未知環境適用のための学習方法が不明瞭 ✓ 膨大なサンプル数を要し、事実上シミュレーション環境が前提 4 Model Detail

提案手法：RECON (Rapid Exploration Controllers for Outcome-driven Navigation) ◼ ゴールの潜在表現学習とグラフ構築により、未知環境でのnavigationを実現 ◼

① Prior Experience：ゴールの潜在表現𝑧𝑡 𝑔を学習 ◼ 既知環境における教師あり学習（= オフライン学習） ◼ 9つの環境で5000サンプルの軌道を収集 ◼

◼ ①のモデルからサブゴールを設定し未知環境を探索 ◼ 目標：グラフの構築とモデルのfine-tuning ◼ 𝑎 𝑡 𝑔は制御、𝑑 𝑡 𝑔はエッジ構築に利用

◼ スタートからゴールへの最短経路ノードがサブゴール ◼ 目標：画像で指定されたゴールへのnavigation ◼ 同じエリア内ではグラフの再利用が可能 8 ③ Navigating：グラフを基に段階的なサブゴールを設定 ←

実験設定：未知環境における2種類の実験実験1：8つの未知環境において、最大80m離れたゴールへのnavigation ◼ 評価指標：Success weighed by Completion Time (SCT) [Yokoyama+

定量的結果（実験1）：全ての指標で既存手法を凌駕 ◼ ECR：「② Exploring」のcase1でランダムに行動 ◼ 考察 ✓ Exploring Time, Navigation

定性的結果（実験1）：より短い経路を選択 11 提案手法はECRより短い経路を選択 RECON（ECR含む）のみゴールに到達タスク例詳細

定性的結果（実験2）：非定常的な環境に頑健 ◼ 平常時 ◼ 未知障害物を回避 ◼ 光（天候）に影響されづらい 12 ゴミ箱カラーコーン

まとめ背景 ✓ 未知の屋外実環境における、画像による頑健なnavigation 提案 ✓ 大規模オフラインデータを用いた、ゴールまでの距離と行動に関する潜在変数モデル ✓ 探索時におけるトポロジカルなグラフの構築結果

Appendix：実装の詳細 14 アーキテクチャハイパーパラメータ

Appendix：その他の疑似コード 15