Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] RREx-BoT: Remote Referring Expre...

[Journal club] RREx-BoT: Remote Referring Expressions with a Bag of Tricks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 RREx-BoT: Remote Referring Expressions with a Bag

    of Tricks Gunnar A. Sigurdsson, Jesse Thomason, Gaurav S. Sukhatme, Robinson Piramuthu (Amazon Alexa AI) IROS 2023 慶應義塾大学 杉浦孔明研究室 是方諒介 Sigurdsson, G., Thomason, J., Sukhatme, G., Piramuthu, R. "RREx-BoT: Remote Referring Expressions with a Bag of Tricks." IROS 2023.
  2. 概要 背景 ✓ 参照表現理解を伴うVision-and-Language Navigation (VLN) タスク ✓ 生活支援ロボットは既知環境での動作が想定される 提案

    ✓ pre-exploration & top-1を選択するretrieval設定 ✓ 100,000規模の候補から検索可能にするBag of Tricks 結果 ✓ 2種類の公開ベンチマークにおいてSOTA ✓ TurtleBot3を用いた実機への統合 2
  3. 関連研究:pre-explorationを考慮した手法は少ない 4 手法 概要 OSMaN [Cirik+, 22] ・ロボット初期化時にマップおよび全矩形領域の候補が提示  探索は実施しない

    DUET [Chen+, CVPR22] ・未知環境において,動的にトポロジカルマップを構築 ☺ frontier-basedな探索 AutoVLN [Chen+, ECCV22] ・HM3D [Ramakrishnan+, NeurIPS21] を用いた大規模なデータセット構築 ・REVERIE, SOONデータセットにおけるSOTA DUET OSMaN
  4. 提案手法: Remote Referring Expressions with a Bag of Tricks (RREx-BoT)

    ◼ pre-exploration & top-1を選択するretrieval設定 ◼ 既知環境で動作するロボットを想定し,敢えてpath lengthを犠牲に ◼ 汎用V&Lモデルにより100,000規模の候補から検索可能にするBag of Tricks 5
  5. 汎用V&Lモデル:矩形領域に0/1のラベルを付与してfine-tuning ◼ ViLBERT [Lu+, NeurIPS19] を採用 ◼ Contextual Captionsデータセット [Sharma+,

    ACL18] で事前学習済み ◼ 入力 ◼ :文のトークン列 ◼ :各候補領域の画像特徴量 ◼ 損失関数 ◼ :viewpoint ◼ :シグモイド関数値 ◼ :モデル ◼ :GTラベル ◼ :交差エントロピー誤差 6 ViLBERT
  6. Bag of Tricks (2/5):Context Proposal ◼ 訓練 & 推論時,viewpoint毎に400領域を候補として入力 ◼

    アノテーション済み + Mask R-CNN [He+, ICCV17] による追加 ◼ 周囲の物体を考慮するため,近傍領域の平均特徴量 も入力 8 REVERIE
  7. Bag of Tricks (3/5):Viewpoint Grouping ◼ 推論時,viewpoint毎にスコアリング → 全体で最大スコアの領域をtop-1に ◼

    意図:訓練/推論時の候補領域数の差(400 vs. 100,000)を考慮 ◼ 例:250 viewpoints × 4 images (360°) × 100 regions = 100,000 9
  8. 実験設定:2種類の公開ベンチマークにおいて評価 ◼ シミュレーション:REVERIE, SOON ◼ 評価指標 ◼ Success Rate (SR)

    ↑ ◼ SR penalized by Path Length (SPL) ↑ ◼ Remote Grounding Success (RGS) ↑ ◼ RGS penalized by Path Length (RGSPL) ↑ ◼ その他 ◼ 実機:TurtleBot3 ◼ Mask R-CNNによる物体検出 12 REVERIE 比較指標 REVERIE SOON 指示文数 10,466 26,790 平均文長 21 47 GTステップ数 4-7 2-21 https://e-shop.robotis.co.jp/news_66.php
  9. 定量的結果:両ベンチマークにおいてSOTA ◼ 考察 ✓ path lengthを考慮しない指標 (SR, RGS) において提案手法が最良 ✓

    path lengthを考慮する指標 (SPL, RGSPL) においては, pre-explorationをカウントしない条件 (PE) では提案手法が最良 13 ◼ REVERIE ◼ SOON
  10. まとめ 背景 ✓ 参照表現理解を伴うVLNタスク ✓ 生活支援ロボットは既知環境での動作が想定される 提案 ✓ pre-exploration &

    top-1を選択するretrieval設定 ✓ 100,000規模の候補から検索可能にするBag of Tricks 結果 ✓ 2種類の公開ベンチマークにおいてSOTA ✓ TurtleBot3を用いた実機への統合 17