Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] RREx-BoT: Remote Referring Expressions with a Bag of Tricks

[Journal club] RREx-BoT: Remote Referring Expressions with a Bag of Tricks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室
    是方諒介
    RREx-BoT:
    Remote Referring Expressions
    with a Bag of Tricks
    Gunnar A. Sigurdsson, Jesse Thomason, Gaurav S. Sukhatme,
    Robinson Piramuthu (Amazon Alexa AI)
    IROS 2023
    慶應義塾大学 杉浦孔明研究室
    是方諒介
    Sigurdsson, G., Thomason, J., Sukhatme, G., Piramuthu, R. "RREx-BoT: Remote Referring Expressions with a Bag of Tricks." IROS 2023.

    View full-size slide

  2. 概要
    背景
    ✓ 参照表現理解を伴うVision-and-Language Navigation (VLN) タスク
    ✓ 生活支援ロボットは既知環境での動作が想定される
    提案
    ✓ pre-exploration & top-1を選択するretrieval設定
    ✓ 100,000規模の候補から検索可能にするBag of Tricks
    結果
    ✓ 2種類の公開ベンチマークにおいてSOTA
    ✓ TurtleBot3を用いた実機への統合
    2

    View full-size slide

  3. 背景:生活支援ロボットは既知環境での動作が想定される
    ◼ 特定の環境で継続的に活動 → 事前に環境を把握可能
     既存のVLNベンチマークは未知環境において評価
    ◼ e.g., REVERIE [Qi+, CVPR20], SOON [Zhu+, CVPR21]
    3
    SOON

    View full-size slide

  4. 関連研究:pre-explorationを考慮した手法は少ない
    4
    手法 概要
    OSMaN
    [Cirik+, 22]
    ・ロボット初期化時にマップおよび全矩形領域の候補が提示
     探索は実施しない
    DUET
    [Chen+, CVPR22]
    ・未知環境において,動的にトポロジカルマップを構築
    ☺ frontier-basedな探索
    AutoVLN
    [Chen+, ECCV22]
    ・HM3D [Ramakrishnan+, NeurIPS21] を用いた大規模なデータセット構築
    ・REVERIE, SOONデータセットにおけるSOTA
    DUET
    OSMaN

    View full-size slide

  5. 提案手法:
    Remote Referring Expressions with a Bag of Tricks (RREx-BoT)
    ◼ pre-exploration & top-1を選択するretrieval設定
    ◼ 既知環境で動作するロボットを想定し,敢えてpath lengthを犠牲に
    ◼ 汎用V&Lモデルにより100,000規模の候補から検索可能にするBag of Tricks
    5

    View full-size slide

  6. 汎用V&Lモデル:矩形領域に0/1のラベルを付与してfine-tuning
    ◼ ViLBERT [Lu+, NeurIPS19] を採用
    ◼ Contextual Captionsデータセット [Sharma+, ACL18] で事前学習済み
    ◼ 入力
    ◼ :文のトークン列
    ◼ :各候補領域の画像特徴量
    ◼ 損失関数
    ◼ :viewpoint
    ◼ :シグモイド関数値
    ◼ :モデル
    ◼ :GTラベル
    ◼ :交差エントロピー誤差
    6
    ViLBERT

    View full-size slide

  7. Bag of Tricks (1/5):候補領域の3次元座標埋め込み
     課題:2次元空間の画像で訓練されたV&Lモデルを3次元空間に適用
    ☺ 矩形領域の座標 → 3次元座標および半径
    ◼ 観測するviewpointからの相対座標
    7
    矩形領域

    View full-size slide

  8. Bag of Tricks (2/5):Context Proposal
    ◼ 訓練 & 推論時,viewpoint毎に400領域を候補として入力
    ◼ アノテーション済み + Mask R-CNN [He+, ICCV17] による追加
    ◼ 周囲の物体を考慮するため,近傍領域の平均特徴量 も入力
    8
    REVERIE

    View full-size slide

  9. Bag of Tricks (3/5):Viewpoint Grouping
    ◼ 推論時,viewpoint毎にスコアリング → 全体で最大スコアの領域をtop-1に
    ◼ 意図:訓練/推論時の候補領域数の差(400 vs. 100,000)を考慮
    ◼ 例:250 viewpoints × 4 images (360°) × 100 regions = 100,000
    9

    View full-size slide

  10. Bag of Tricks (4/5):Viewpoint Augmentation
    ◼ 訓練時,確率 で対象物体の存在しないviewpointを選択
    ◼ すべての候補領域が負例
    ◼ 意図:訓練/推論時の候補領域数の差(400 vs. 100,000)を考慮
    10

    View full-size slide

  11. Bag of Tricks (5/5):非網羅的な探索
    ◼ 推論時,検索範囲を開始地点から ステップまでに限定
    ◼ 訓練時における対象物体までのステップ数から を決定
    ◼ 程度
    11

    View full-size slide

  12. 実験設定:2種類の公開ベンチマークにおいて評価
    ◼ シミュレーション:REVERIE, SOON
    ◼ 評価指標
    ◼ Success Rate (SR) ↑
    ◼ SR penalized by Path Length (SPL) ↑
    ◼ Remote Grounding Success (RGS) ↑
    ◼ RGS penalized by Path Length (RGSPL) ↑
    ◼ その他
    ◼ 実機:TurtleBot3
    ◼ Mask R-CNNによる物体検出
    12
    REVERIE
    比較指標 REVERIE SOON
    指示文数 10,466 26,790
    平均文長 21 47
    GTステップ数 4-7 2-21
    https://e-shop.robotis.co.jp/news_66.php

    View full-size slide

  13. 定量的結果:両ベンチマークにおいてSOTA
    ◼ 考察
    ✓ path lengthを考慮しない指標 (SR, RGS) において提案手法が最良
    ✓ path lengthを考慮する指標 (SPL, RGSPL) においては,
    pre-explorationをカウントしない条件 (PE) では提案手法が最良
    13
    ◼ REVERIE ◼ SOON

    View full-size slide

  14. Ablation Study:各”Trick”の有効性を検証
    ◼ 考察
    ✓ すべての”Trick”が有用
    ✓ 特に,Viewpoint Grouping & Augmentationの寄与が大きい
    14
    ◼ REVERIE

    View full-size slide

  15. 定性的結果 (1/2):成功例
    ☺ 対象物体の矩形領域がtop-1にランクイン
    ☺ 対象物体を異なる角度から撮影した矩形領域も上位にランクイン
    15

    View full-size slide

  16. 定性的結果 (2/2):失敗例
     無関係な矩形領域がtop-1にランクイン
    ☺ top-5以内には対象物体の矩形領域が存在
    16

    View full-size slide

  17. まとめ
    背景
    ✓ 参照表現理解を伴うVLNタスク
    ✓ 生活支援ロボットは既知環境での動作が想定される
    提案
    ✓ pre-exploration & top-1を選択するretrieval設定
    ✓ 100,000規模の候補から検索可能にするBag of Tricks
    結果
    ✓ 2種類の公開ベンチマークにおいてSOTA
    ✓ TurtleBot3を用いた実機への統合
    17

    View full-size slide

  18. Appendix:学習設定
    ◼ 学習時間:4d
    ◼ ハードウェア構成:single NVIDIA T4 GPU
    18

    View full-size slide

  19. Appendix:RGSに関するDUETとの詳細な性能比較
    19

    View full-size slide

  20. Appendix:Method Ablation
    20

    View full-size slide

  21. Appendix:Text Ablation
    21

    View full-size slide