Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ24] Open-Vocabulary Mobile Manipulation Ins...

[RSJ24] Open-Vocabulary Mobile Manipulation Instructions Generation from Multiple Images with Automatic Metric Enhancement

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 問題設定:Open-Vocabulary Mobile Manipulation Instruction Generation タスク - 3 - 対象物体画像

    配置目標画像 入力 出力 “ガラスのテーブルの横にあるオレンジ色のクッションを リビングの木製の机の上に運んで“ 複数画像の入力から任意の対象物体と配置目標を特定し物体操作指示文を生成
  2. 関連研究:2枚の画像を適切に扱うことはMLLMでも難しい - 4 - GRIT [Nguyen+, ECCV22] Grid/Region 特徴量を活用した画像キャプショニング手法 BLIP-2

    [Li+, ICML23] 視覚と言語のアライメントに焦点を当てたQ-Formerを提案 例: GPT-4o 対象物体画像 配置目標画像 2枚の画像を混同して記述 存在しない物体の記述 “take the lamp next to the tree stump and place it on the table beside the dining chairs”
  3. 提案手法 Triplet Qformer : 複数の視覚的特徴を 自然言語に基づくテキスト特徴量を軸としてアライメント - 5 - 複数画像に基づく視覚特徴量の適切なアライメントはうまくいかない

    Qformer [Li+, ICML23]を拡張したMCFormerを導入 付与文 Carry a white pillow … Region 特徴量 Grid 特徴量 テキスト特徴量と 視覚的特徴量をアライン
  4. Human Centric Calibration Phase: 人間が付与する文により近い指示文を生成する訓練手法 - 6 - 学習ベース 自動評価尺度

    𝑛-gramベース 自動評価尺度 : 重み係数 : ビーム内のi番目の文 : バッチ内の番号 𝑛-gramベースの自動評価尺度のみでは人間のような多様な指示文の生成は難しい Paraphraseに対応 Polos [Wada+, CVPR24 Highlight] CIDEr 報酬関数 報酬基準
  5. 定量的結果 :代表的な尺度でベースライン手法を上回る - 7 - HM3D [Ramakrishnan+, NeurIPS21]の画像に基づくデータセット[Korekata+, 24] Polos

    SPICE CIDEr 対象物体画像 配置目標画像 提案手法 50.9 50.7 22.7 64.8 GRIT [Nguyen+, ECCV22] 41.2 39.0 19.8 59.2 BLIP-2 [Li+, ICML23] 42.4 40.1 16.9 36.6 Gemini [Reid+, 24]​ 29.5 29.4 11.2 26.2 GPT-4o [Achiam+, 24]​ 34.5 35.5 15.2 33.4 +8.5 +10.6 +2.9 +5.6
  6. 定性的結果:ベースライン手法で適切に記述できない画像に おいても適切に指示文を生成 - 8 - “grasp the lamp on the

    table and place it on the chair in the room” “move the white curtain on the bed to the brown shelf in the living room” 付与文: 対象物体画像 配置目標画像 “take the white lamp on the desk near the bed, then move it to the white desk near the black chair” 提案手法: BLIP-2 : →存在しない白いカーテン・茶色の棚の記述
  7. 定性的結果:ベースライン手法で適切に記述できない画像に おいても適切に指示文を生成 - 8 - “grasp the lamp on the

    table and place it on the chair in the room” “move the white curtain on the bed to the brown shelf in the living room” 付与文: 対象物体画像 配置目標画像 “take the white lamp on the desk near the bed, then move it to the white desk near the black chair” 提案手法: BLIP-2 : →存在しない白いカーテン・茶色の棚の記述
  8. データセット拡張実験: 自然言語指示文理解モデルの性能向上に寄与 - 9 - 実機実験 R@10 ↑ SR ↑

    51 45 (9/20) 58 55 (11/20) HM3D-FC (unseen) [%] R@5↑ R@10↑ R@20↑ (i) 拡張無 28.6 48.7 74.0 (ii) 拡張有 32.0 51.3 76.2 ◼ 提案手法で生成した指示文でデータセット拡張 ◼ 自然言語指示文理解モデル [Kaneda+, RA-L24]を 訓練し拡張データセットの有無で比較 20x
  9. まとめ 背景 ◼ 高品質な物体操作指示文を自動生成できれば有用 手法 ◼ テキスト特徴量を軸として複数の視覚的特徴を統合するTriplet Qformer ◼ 学習ベース及びn-gramベースの自動評価尺度を報酬として用いる学習手法

    Human Centric Calibration Phaseを含めた3段階の訓練 - 10 - 結果 ◼ MLLMを含むすべてのベースライン手法 を代表的な自動評価尺度で上回る ◼ 生活支援ロボットに用いる自然言語理解 モデルの性能向上に寄与
  10. 実験設定:LTRRIE-FC [Korekata+, 24]のHM3D-FCサブセットを利用 - 12 - ▪ 画像:HM3D [Ramakrishnan+, NeurIPS21]

    およびMP3D [Chang+, 3DV17] から収集 ▪ 言語:対象物体を配置目標へ運搬するための参照表現を含む指示文
  11. 訓練手法 :3段階の事前学習の実施 - 13 - Image-Text Matching Image-Text Contrastive Learning

    Image-Grounded Text Generation 1. Triplet Qformer Pretrain Phase 2. Probability Distribution Matching Phase
  12. 課題:適切な物体操作指示文生成は困難 - 14- 対象物体画像 配置目標画像 Carry black sofa 〜 →

    操作指示文として不適切 Fetch white curtain 〜 → 存在しない物体の記述 Pick orange cushion to black sofa → 2枚の画像の混同 ▪ 異なる2枚の画像を独立して理解 ▪ 人間が実際に指示する文に近い内容・形式での出力
  13. 定性的結果:MLLMで記述できない画像においても適切に出力 - 15 - 提案手法: “move the red object on

    the sofa to the shelf above the kitchen” BLIP-2: “move the white curtain on the left side of the window to the white shelf on the right side of the window” 付与文: “move the red object on the sofa to the cupboard at the corner” 対象物体画像 配置目標画像
  14. 評価指標:画像キャプショニングにおいて代表的 - 16 - ▪ Polos [Wada+, CVPR24] ▪ PAC-S,

    Ref-PAC-S [Sarto+ CVPR23] : 付与文 : 画像特徴量 : テキスト特徴量 :スケーリング項
  15. 評価指標:画像検索設定において標準的 - 19 - ▪ Mean Reciprocal Rank (MRR) ▪

    Recall@K :top-Kのサンプル集合 :指示文数 :正解サンプル集合 :GT画像の最高順位
  16. 実験設定(実機): マルチモーダル検索 + 移動マニピュレーション - 20 - ▪ 環境:WRS 2020

    Partner Robot Challenge/Real Spaceの標準環境に準拠 ▪ 実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] ▪ 物体:YCBオブジェクト [Calli+, RAM15]
  17. 実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] - 21 - https://global.toyota/jp/download/8725215

    ▪ HSR:トヨタ自動車製の生活支援ロボット ▪ 頭部搭載のAsus Xtion Proカメラを使用