[RSJ22] Switching Funnel UNITER: Multimodal Instruction Comprehension for Object Manipulation Tasks

Slide 1

Slide 1 text

物体操作タスクにおける Switching Funnel UNITERによる対象物体および配置目標に関する指示文理解慶應義塾大学是方諒介，吉田悠，石川慎太朗，杉浦孔明

Slide 2

Slide 2 text

背景：生活支援ロボットに自然言語で指示できると便利 • 高齢化が進行する現代社会 – 日常生活における介助支援の需要の高まり • 生活支援ロボット – 被介助者を物理的に支援可能 – 在宅介助者不足を解消フライパンを白い机に運んで 2

Slide 3

Slide 3 text

問題設定：Dual Referring Expression Comprehension (DREC) • 物体検出により抽出した各領域から，およびを特定 • 入力 ① 指示文 ② 対象物体候補の領域 ③ 配置目標候補の領域 ④ 画像中の各物体および配置先の領域 • 出力 – 対象物体候補および配置目標候補が，ともに指示文のGround Truthに一致する確率 – 望ましい出力：一致すれば1，しなければ0 “Move the to the .” 対象物体候補の画像配置目標候補の画像 3 対象物体配置目標 frying pan white table

Slide 4

Slide 4 text

関連研究手法概要 MTCM [Magassouba+, RA-L19] ・自然言語による指示文と全体画像を入力とし，対象物体を特定・VGG-16およびLSTMを使用 Target-dependent UNITER [Ishikawa+, RA-L21] ・対象物体候補を扱う新規構造を導入した UNITER [Chen+, ECCV20] 型注意機構を使用 Funnel UNITER [吉田+, JSAI22] ・Target-dependent UNITERに， Funnel Transformer [Dai+, NeurIPS20] に基づく次元削減を導入 Object Memory Transformer [Fukushima+, ICRA22] ・3次元屋内環境におけるobject goal navigation ・Object-Scene Memoryを用いてシーケンス中の物体に注目 Object Memory Transformer 4 Target-dependent UNITER

Slide 5

Slide 5 text

Funnel UNITERの課題：要する推論回数が膨大で，リアルタイム性において非実用的 • 目標：指示文に対する最尤の組（対象物体，配置目標）の探索  推論回数のオーダーが 𝑂(𝑀 × 𝑁) 例）𝑀 = 𝑁 = 100，1回の推論時間を0.004秒と仮定判断に40秒必要 5 𝑀：対象物体候補数 𝑁：配置目標候補数・・・ ( ， ) … ( ， ) ？部屋2 部屋1

Slide 6

Slide 6 text

提案手法：Switching Funnel UNITER • Funnel UNITERを，単一モデルで対象物体/配置目標を独立に予測可能に拡張 – 推論回数のオーダーを 𝑂(𝑀 + 𝑁) に削減 – 4つのモジュールで構成 6 ( ， ) ！ ( )，… ，( ) ( )，… ，( )

Slide 7

Slide 7 text

1. Switcher：予測対象が対象物体/配置目標のどちらかに応じて入力切替 • ① target mode：対象物体を予測，② destination mode：配置目標を予測 – 𝒙targ , 𝒙dest , 𝒙det ：Faster R-CNN [Ren+, PAMI16] から抽出した領域の特徴量 – 𝒙targloc , 𝒙destloc , 𝒙detloc ：矩形領域の位置に関する特徴量 7 不要な入力を0埋めして条件付け（𝒙targloc ， 𝒙destloc も同様） 𝒙targ , 𝒙dest = ൝ (𝒙targ , 𝟎) if target mode (𝟎, 𝒙dest ) if destination mode 各モードの対象ではない入力は不使用 𝒙det ，𝒙detloc ：周囲の物体および配置先の特徴量

Slide 8

Slide 8 text

2. Image Embedder, 3. Text Embedder：画像/指示文の埋め込み • Image Embedder – 𝑓FC ：全結合層，𝑓LN ：Layer Normalization • Text Embedder：指示文に対しWordPieceによるトークン化 – 𝒙inst ：トークンID (one-hot)，𝒙pos ：トークンの位置 (one-hot) 8 𝒉′targ = 𝑓LN (𝑓FC 𝒙targ + 𝑓FC 𝒙targloc ) 𝒉′dest ，𝒉′det も同様に算出し，連結 𝒉′txtemb = 𝑓LN 𝑾inst 𝒙inst + 𝑾pos 𝒙pos 𝑾inst ，𝑾pos ：学習可能パラメータ

Slide 9

Slide 9 text

4. Funnel Transformer：𝐿 層繰り返し，モードに応じて出力を選択 • target modeでは𝑝(ෝ 𝒚targ )，destination modeでは𝑝(ෝ 𝒚dest )を予測確率と解釈 • 単一モデルでマルチタスク学習 – 𝜆∗ ：ハイパーパラメータ，ℒ∗ ：各モードにおける交差エントロピー誤差 9 𝒉′imgemb ，𝒉′txtemb を連結し入力 ℒ = 𝜆targ ℒtarg + 𝜆dest ℒdest

Slide 10

Slide 10 text

実験設定：”ALFRED-fc” データセットを収集し，性能を評価 • ALFRED [Shridhar+, CVPR20] – 物体操作を含むVision-Language Navigationの標準ベンチマーク • ALFRED-fc (fetch and carry)：DRECのための新規データセット ☺ ALFREDから，物体把持直前/配置直後の画像を収集 ☺ 配置後の物体を0埋めしてマスク 10  把持中の物体で視野が遮蔽  配置後の物体が写る配置前配置後 ALFRED-fc

Slide 11

Slide 11 text

定量的結果：ベースライン手法を上回る性能 • 対象物体/配置目標を同時に予測するベースライン手法に合わせて評価 – 正解ラベル（真偽値）： 𝑦 = 𝑦targ ∩ 𝑦dest – 予測ラベル（真偽値）： ො 𝑦 = ො 𝑦targ ∩ ො 𝑦dest ✓ ベースライン手法を精度で上回る ✓ マルチタスク学習/0埋めともに有効手法 Accuracy [%] Funnel UNITER [吉田+, JSAI22] 79.4 ± 2.76 提案手法 (w/o マルチタスク学習) 76.9 ± 2.91 提案手法 (w/o Switcherにおける0埋め) 80.4 ± 5.31 提案手法 83.1 ± 2.00 +3.7 11

Slide 12

Slide 12 text

定性的結果：成功例/失敗例 • 正例に対する成功例 “Move the soap from the shelves to the metal rack.” “Put a towel in the bath tub.” • 負例に対する失敗例 ☺ 対象物体候補が鏡に映ったものであると判断する難しさ  12 対象物体候補/配置目標候補が，ともにGround Truthに一致すると正しく予測対象物体候補が、 Ground Truthに一致すると誤って予測

Slide 13

Slide 13 text

まとめ背景 ✓ 生活支援ロボットに自然言語で指示できると便利提案 ✓ Switcherおよびマルチタスク学習の導入により，単一モデルで対象物体および配置目標の予測を実現 ✓ 推論方法の工夫により，必要な推論回数を削減結果 ✓ ALFREDを基にしたデータセットにおいて，ベースライン手法を分類精度で上回った 13