Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 是方諒介 RREx-BoT: Remote Referring Expressions with a Bag of Tricks Gunnar A. Sigurdsson, Jesse Thomason, Gaurav S. Sukhatme, Robinson Piramuthu (Amazon Alexa AI) IROS 2023 慶應義塾大学 杉浦孔明研究室 是方諒介 Sigurdsson, G., Thomason, J., Sukhatme, G., Piramuthu, R. "RREx-BoT: Remote Referring Expressions with a Bag of Tricks." IROS 2023.

Slide 2

Slide 2 text

概要 背景 ✓ 参照表現理解を伴うVision-and-Language Navigation (VLN) タスク ✓ 生活支援ロボットは既知環境での動作が想定される 提案 ✓ pre-exploration & top-1を選択するretrieval設定 ✓ 100,000規模の候補から検索可能にするBag of Tricks 結果 ✓ 2種類の公開ベンチマークにおいてSOTA ✓ TurtleBot3を用いた実機への統合 2

Slide 3

Slide 3 text

背景:生活支援ロボットは既知環境での動作が想定される ◼ 特定の環境で継続的に活動 → 事前に環境を把握可能  既存のVLNベンチマークは未知環境において評価 ◼ e.g., REVERIE [Qi+, CVPR20], SOON [Zhu+, CVPR21] 3 SOON

Slide 4

Slide 4 text

関連研究:pre-explorationを考慮した手法は少ない 4 手法 概要 OSMaN [Cirik+, 22] ・ロボット初期化時にマップおよび全矩形領域の候補が提示  探索は実施しない DUET [Chen+, CVPR22] ・未知環境において,動的にトポロジカルマップを構築 ☺ frontier-basedな探索 AutoVLN [Chen+, ECCV22] ・HM3D [Ramakrishnan+, NeurIPS21] を用いた大規模なデータセット構築 ・REVERIE, SOONデータセットにおけるSOTA DUET OSMaN

Slide 5

Slide 5 text

提案手法: Remote Referring Expressions with a Bag of Tricks (RREx-BoT) ◼ pre-exploration & top-1を選択するretrieval設定 ◼ 既知環境で動作するロボットを想定し,敢えてpath lengthを犠牲に ◼ 汎用V&Lモデルにより100,000規模の候補から検索可能にするBag of Tricks 5

Slide 6

Slide 6 text

汎用V&Lモデル:矩形領域に0/1のラベルを付与してfine-tuning ◼ ViLBERT [Lu+, NeurIPS19] を採用 ◼ Contextual Captionsデータセット [Sharma+, ACL18] で事前学習済み ◼ 入力 ◼ :文のトークン列 ◼ :各候補領域の画像特徴量 ◼ 損失関数 ◼ :viewpoint ◼ :シグモイド関数値 ◼ :モデル ◼ :GTラベル ◼ :交差エントロピー誤差 6 ViLBERT

Slide 7

Slide 7 text

Bag of Tricks (1/5):候補領域の3次元座標埋め込み  課題:2次元空間の画像で訓練されたV&Lモデルを3次元空間に適用 ☺ 矩形領域の座標 → 3次元座標および半径 ◼ 観測するviewpointからの相対座標 7 矩形領域

Slide 8

Slide 8 text

Bag of Tricks (2/5):Context Proposal ◼ 訓練 & 推論時,viewpoint毎に400領域を候補として入力 ◼ アノテーション済み + Mask R-CNN [He+, ICCV17] による追加 ◼ 周囲の物体を考慮するため,近傍領域の平均特徴量 も入力 8 REVERIE

Slide 9

Slide 9 text

Bag of Tricks (3/5):Viewpoint Grouping ◼ 推論時,viewpoint毎にスコアリング → 全体で最大スコアの領域をtop-1に ◼ 意図:訓練/推論時の候補領域数の差(400 vs. 100,000)を考慮 ◼ 例:250 viewpoints × 4 images (360°) × 100 regions = 100,000 9

Slide 10

Slide 10 text

Bag of Tricks (4/5):Viewpoint Augmentation ◼ 訓練時,確率 で対象物体の存在しないviewpointを選択 ◼ すべての候補領域が負例 ◼ 意図:訓練/推論時の候補領域数の差(400 vs. 100,000)を考慮 10

Slide 11

Slide 11 text

Bag of Tricks (5/5):非網羅的な探索 ◼ 推論時,検索範囲を開始地点から ステップまでに限定 ◼ 訓練時における対象物体までのステップ数から を決定 ◼ 程度 11

Slide 12

Slide 12 text

実験設定:2種類の公開ベンチマークにおいて評価 ◼ シミュレーション:REVERIE, SOON ◼ 評価指標 ◼ Success Rate (SR) ↑ ◼ SR penalized by Path Length (SPL) ↑ ◼ Remote Grounding Success (RGS) ↑ ◼ RGS penalized by Path Length (RGSPL) ↑ ◼ その他 ◼ 実機:TurtleBot3 ◼ Mask R-CNNによる物体検出 12 REVERIE 比較指標 REVERIE SOON 指示文数 10,466 26,790 平均文長 21 47 GTステップ数 4-7 2-21 https://e-shop.robotis.co.jp/news_66.php

Slide 13

Slide 13 text

定量的結果:両ベンチマークにおいてSOTA ◼ 考察 ✓ path lengthを考慮しない指標 (SR, RGS) において提案手法が最良 ✓ path lengthを考慮する指標 (SPL, RGSPL) においては, pre-explorationをカウントしない条件 (PE) では提案手法が最良 13 ◼ REVERIE ◼ SOON

Slide 14

Slide 14 text

Ablation Study:各”Trick”の有効性を検証 ◼ 考察 ✓ すべての”Trick”が有用 ✓ 特に,Viewpoint Grouping & Augmentationの寄与が大きい 14 ◼ REVERIE

Slide 15

Slide 15 text

定性的結果 (1/2):成功例 ☺ 対象物体の矩形領域がtop-1にランクイン ☺ 対象物体を異なる角度から撮影した矩形領域も上位にランクイン 15

Slide 16

Slide 16 text

定性的結果 (2/2):失敗例  無関係な矩形領域がtop-1にランクイン ☺ top-5以内には対象物体の矩形領域が存在 16

Slide 17

Slide 17 text

まとめ 背景 ✓ 参照表現理解を伴うVLNタスク ✓ 生活支援ロボットは既知環境での動作が想定される 提案 ✓ pre-exploration & top-1を選択するretrieval設定 ✓ 100,000規模の候補から検索可能にするBag of Tricks 結果 ✓ 2種類の公開ベンチマークにおいてSOTA ✓ TurtleBot3を用いた実機への統合 17

Slide 18

Slide 18 text

Appendix:学習設定 ◼ 学習時間:4d ◼ ハードウェア構成:single NVIDIA T4 GPU 18

Slide 19

Slide 19 text

Appendix:RGSに関するDUETとの詳細な性能比較 19

Slide 20

Slide 20 text

Appendix:Method Ablation 20

Slide 21

Slide 21 text

Appendix:Text Ablation 21