Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ22] Switching Funnel UNITER: Multimodal Ins...

[RSJ22] Switching Funnel UNITER: Multimodal Instruction Comprehension for Object Manipulation Tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 問題設定:Dual Referring Expression Comprehension (DREC) • 物体検出により抽出した各領域から, および を特定 •

    入力 ① 指示文 ② 対象物体候補の領域 ③ 配置目標候補の領域 ④ 画像中の各物体および配置先の領域 • 出力 – 対象物体候補および配置目標候補が,ともに指示文のGround Truthに一致する確率 – 望ましい出力:一致すれば1,しなければ0 “Move the to the .” 対象物体候補の画像 配置目標候補の画像 3 対象物体 配置目標 frying pan white table
  2. 関連研究 手法 概要 MTCM [Magassouba+, RA-L19] ・自然言語による指示文と全体画像を入力とし,対象物体を特定 ・VGG-16およびLSTMを使用 Target-dependent UNITER

    [Ishikawa+, RA-L21] ・対象物体候補を扱う新規構造を導入した UNITER [Chen+, ECCV20] 型注意機構を使用 Funnel UNITER [吉田+, JSAI22] ・Target-dependent UNITERに, Funnel Transformer [Dai+, NeurIPS20] に基づく次元削減を導入 Object Memory Transformer [Fukushima+, ICRA22] ・3次元屋内環境におけるobject goal navigation ・Object-Scene Memoryを用いてシーケンス中の物体に注目 Object Memory Transformer 4 Target-dependent UNITER
  3. Funnel UNITERの課題: 要する推論回数が膨大で,リアルタイム性において非実用的 • 目標:指示文に対する最尤の組(対象物体,配置目標)の探索  推論回数のオーダーが 𝑂(𝑀 × 𝑁)

    例)𝑀 = 𝑁 = 100,1回の推論時間を0.004秒と仮定 判断に40秒必要 5 𝑀:対象物体候補数 𝑁:配置目標候補数 ・・・ ( , ) … ( , ) ? 部屋2 部屋1
  4. 1. Switcher:予測対象が対象物体/配置目標のどちらかに応じて入力切替 • ① target mode:対象物体を予測,② destination mode:配置目標を予測 – 𝒙targ

    , 𝒙dest , 𝒙det :Faster R-CNN [Ren+, PAMI16] から抽出した領域の特徴量 – 𝒙targloc , 𝒙destloc , 𝒙detloc :矩形領域の位置に関する特徴量 7 不要な入力を0埋めして条件付け(𝒙targloc , 𝒙destloc も同様) 𝒙targ , 𝒙dest = ൝ (𝒙targ , 𝟎) if target mode (𝟎, 𝒙dest ) if destination mode 各モードの対象ではない入力は不使用 𝒙det ,𝒙detloc :周囲の物体および配置先の特徴量
  5. 2. Image Embedder, 3. Text Embedder:画像/指示文の埋め込み • Image Embedder –

    𝑓FC :全結合層,𝑓LN :Layer Normalization • Text Embedder:指示文に対しWordPieceによるトークン化 – 𝒙inst :トークンID (one-hot),𝒙pos :トークンの位置 (one-hot) 8 𝒉′targ = 𝑓LN (𝑓FC 𝒙targ + 𝑓FC 𝒙targloc ) 𝒉′dest ,𝒉′det も同様に算出し,連結 𝒉′txtemb = 𝑓LN 𝑾inst 𝒙inst + 𝑾pos 𝒙pos 𝑾inst ,𝑾pos :学習可能パラメータ
  6. 4. Funnel Transformer:𝐿 層繰り返し,モードに応じて出力を選択 • target modeでは𝑝(ෝ 𝒚targ ),destination modeでは𝑝(ෝ

    𝒚dest )を予測確率と解釈 • 単一モデルでマルチタスク学習 – 𝜆∗ :ハイパーパラメータ,ℒ∗ :各モードにおける交差エントロピー誤差 9 𝒉′imgemb ,𝒉′txtemb を連結し入力 ℒ = 𝜆targ ℒtarg + 𝜆dest ℒdest
  7. 実験設定:”ALFRED-fc” データセットを収集し,性能を評価 • ALFRED [Shridhar+, CVPR20] – 物体操作を含むVision-Language Navigationの標準ベンチマーク •

    ALFRED-fc (fetch and carry):DRECのための新規データセット ☺ ALFREDから,物体把持直前/配置直後の画像を収集 ☺ 配置後の物体を0埋めしてマスク 10  把持中の物体で 視野が遮蔽  配置後の物体が写る 配置前 配置後 ALFRED-fc
  8. 定量的結果:ベースライン手法を上回る性能 • 対象物体/配置目標を同時に予測するベースライン手法に合わせて評価 – 正解ラベル(真偽値): 𝑦 = 𝑦targ ∩ 𝑦dest

    – 予測ラベル(真偽値): ො 𝑦 = ො 𝑦targ ∩ ො 𝑦dest ✓ ベースライン手法を精度で上回る ✓ マルチタスク学習/0埋めともに有効 手法 Accuracy [%] Funnel UNITER [吉田+, JSAI22] 79.4 ± 2.76 提案手法 (w/o マルチタスク学習) 76.9 ± 2.91 提案手法 (w/o Switcherにおける0埋め) 80.4 ± 5.31 提案手法 83.1 ± 2.00 +3.7 11
  9. 定性的結果:成功例/失敗例 • 正例に対する成功例 “Move the soap from the shelves to

    the metal rack.” “Put a towel in the bath tub.” • 負例に対する失敗例 ☺ 対象物体候補が鏡に映った ものであると判断する難しさ  12 対象物体候補/配置目標候補が, ともにGround Truthに一致すると正しく予測 対象物体候補が、 Ground Truthに一致すると誤って予測