Slide 1

Slide 1 text

自動評価尺度を用いた強化学習および マルチモーダル基盤モデルに基づく物体操作指示文生成 慶應義塾大学 勝又 圭, 神原 元就, 杉浦 孔明

Slide 2

Slide 2 text

背景:高品質な物体操作指示文を自動生成できれば有用 ■ 自然言語で物体操作が可能な生活支援ロボットは有用 ■ 高い性能を得るには大規模なデータセットが必要 物体操作指示文のアノテーションはコスト大 - 2 - PaLM-E [Driess+, ICML23] SayCan [Brohan+, CoRL22]

Slide 3

Slide 3 text

問題設定:Open-Vocabulary Mobile Manipulation Instruction Generation タスク - 3 - 対象物体画像 配置目標画像 入力 出力 “ガラスのテーブルの横にあるオレンジ色のクッションを リビングの木製の机の上に運んで“ 複数画像の入力から任意の対象物体と配置目標を特定し物体操作指示文を生成

Slide 4

Slide 4 text

関連研究:2枚の画像を適切に扱うことはMLLMでも難しい - 4 - GRIT [Nguyen+, ECCV22] Grid/Region 特徴量を活用した画像キャプショニング手法 BLIP-2 [Li+, ICML23] 視覚と言語のアライメントに焦点を当てたQ-Formerを提案 例: GPT-4o 対象物体画像 配置目標画像 2枚の画像を混同して記述 存在しない物体の記述 “take the lamp next to the tree stump and place it on the table beside the dining chairs”

Slide 5

Slide 5 text

提案手法 Triplet Qformer : 複数の視覚的特徴を 自然言語に基づくテキスト特徴量を軸としてアライメント - 5 - 複数画像に基づく視覚特徴量の適切なアライメントはうまくいかない Qformer [Li+, ICML23]を拡張したMCFormerを導入 付与文 Carry a white pillow … Region 特徴量 Grid 特徴量 テキスト特徴量と 視覚的特徴量をアライン

Slide 6

Slide 6 text

Human Centric Calibration Phase: 人間が付与する文により近い指示文を生成する訓練手法 - 6 - 学習ベース 自動評価尺度 𝑛-gramベース 自動評価尺度 : 重み係数 : ビーム内のi番目の文 : バッチ内の番号 𝑛-gramベースの自動評価尺度のみでは人間のような多様な指示文の生成は難しい Paraphraseに対応 Polos [Wada+, CVPR24 Highlight] CIDEr 報酬関数 報酬基準

Slide 7

Slide 7 text

定量的結果 :代表的な尺度でベースライン手法を上回る - 7 - HM3D [Ramakrishnan+, NeurIPS21]の画像に基づくデータセット[Korekata+, 24] Polos SPICE CIDEr 対象物体画像 配置目標画像 提案手法 50.9 50.7 22.7 64.8 GRIT [Nguyen+, ECCV22] 41.2 39.0 19.8 59.2 BLIP-2 [Li+, ICML23] 42.4 40.1 16.9 36.6 Gemini [Reid+, 24]​ 29.5 29.4 11.2 26.2 GPT-4o [Achiam+, 24]​ 34.5 35.5 15.2 33.4 +8.5 +10.6 +2.9 +5.6

Slide 8

Slide 8 text

定性的結果:ベースライン手法で適切に記述できない画像に おいても適切に指示文を生成 - 8 - “grasp the lamp on the table and place it on the chair in the room” “move the white curtain on the bed to the brown shelf in the living room” 付与文: 対象物体画像 配置目標画像 “take the white lamp on the desk near the bed, then move it to the white desk near the black chair” 提案手法: BLIP-2 : →存在しない白いカーテン・茶色の棚の記述

Slide 9

Slide 9 text

定性的結果:ベースライン手法で適切に記述できない画像に おいても適切に指示文を生成 - 8 - “grasp the lamp on the table and place it on the chair in the room” “move the white curtain on the bed to the brown shelf in the living room” 付与文: 対象物体画像 配置目標画像 “take the white lamp on the desk near the bed, then move it to the white desk near the black chair” 提案手法: BLIP-2 : →存在しない白いカーテン・茶色の棚の記述

Slide 10

Slide 10 text

データセット拡張実験: 自然言語指示文理解モデルの性能向上に寄与 - 9 - 実機実験 R@10 ↑ SR ↑ 51 45 (9/20) 58 55 (11/20) HM3D-FC (unseen) [%] R@5↑ R@10↑ R@20↑ (i) 拡張無 28.6 48.7 74.0 (ii) 拡張有 32.0 51.3 76.2 ◼ 提案手法で生成した指示文でデータセット拡張 ◼ 自然言語指示文理解モデル [Kaneda+, RA-L24]を 訓練し拡張データセットの有無で比較 20x

Slide 11

Slide 11 text

まとめ 背景 ◼ 高品質な物体操作指示文を自動生成できれば有用 手法 ◼ テキスト特徴量を軸として複数の視覚的特徴を統合するTriplet Qformer ◼ 学習ベース及びn-gramベースの自動評価尺度を報酬として用いる学習手法 Human Centric Calibration Phaseを含めた3段階の訓練 - 10 - 結果 ◼ MLLMを含むすべてのベースライン手法 を代表的な自動評価尺度で上回る ◼ 生活支援ロボットに用いる自然言語理解 モデルの性能向上に寄与

Slide 12

Slide 12 text

Appendix

Slide 13

Slide 13 text

実験設定:LTRRIE-FC [Korekata+, 24]のHM3D-FCサブセットを利用 - 12 - ■ 画像:HM3D [Ramakrishnan+, NeurIPS21] およびMP3D [Chang+, 3DV17] から収集 ■ 言語:対象物体を配置目標へ運搬するための参照表現を含む指示文

Slide 14

Slide 14 text

訓練手法 :3段階の事前学習の実施 - 13 - Image-Text Matching Image-Text Contrastive Learning Image-Grounded Text Generation 1. Triplet Qformer Pretrain Phase 2. Probability Distribution Matching Phase

Slide 15

Slide 15 text

課題:適切な物体操作指示文生成は困難 - 14- 対象物体画像 配置目標画像 Carry black sofa 〜 → 操作指示文として不適切 Fetch white curtain 〜 → 存在しない物体の記述 Pick orange cushion to black sofa → 2枚の画像の混同 ■ 異なる2枚の画像を独立して理解 ■ 人間が実際に指示する文に近い内容・形式での出力

Slide 16

Slide 16 text

定性的結果:MLLMで記述できない画像においても適切に出力 - 15 - 提案手法: “move the red object on the sofa to the shelf above the kitchen” BLIP-2: “move the white curtain on the left side of the window to the white shelf on the right side of the window” 付与文: “move the red object on the sofa to the cupboard at the corner” 対象物体画像 配置目標画像

Slide 17

Slide 17 text

評価指標:画像キャプショニングにおいて代表的 - 16 - ■ Polos [Wada+, CVPR24] ■ PAC-S, Ref-PAC-S [Sarto+ CVPR23] : 付与文 : 画像特徴量 : テキスト特徴量 :スケーリング項

Slide 18

Slide 18 text

評価指標:画像キャプショニングにおいて代表的 - 17 -

Slide 19

Slide 19 text

評価指標:画像キャプショニングにおいて代表的 ■ SPICE [Anderson+, ECCV16] ■ CIDEr [Ramakrishna+ CVPR15] - 18 -

Slide 20

Slide 20 text

評価指標:画像検索設定において標準的 - 19 - ■ Mean Reciprocal Rank (MRR) ■ Recall@K :top-Kのサンプル集合 :指示文数 :正解サンプル集合 :GT画像の最高順位

Slide 21

Slide 21 text

実験設定(実機): マルチモーダル検索 + 移動マニピュレーション - 20 - ■ 環境:WRS 2020 Partner Robot Challenge/Real Spaceの標準環境に準拠 ■ 実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] ■ 物体:YCBオブジェクト [Calli+, RAM15]

Slide 22

Slide 22 text

実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] - 21 - https://global.toyota/jp/download/8725215 ■ HSR:トヨタ自動車製の生活支援ロボット ■ 頭部搭載のAsus Xtion Proカメラを使用