Slide 1

Slide 1 text

物体操作タスクにおける Switching Funnel UNITERによる 対象物体および配置目標に関する指示文理解 慶應義塾大学 是方諒介,吉田悠,石川慎太朗,杉浦孔明

Slide 2

Slide 2 text

背景:生活支援ロボットに自然言語で指示できると便利 • 高齢化が進行する現代社会 – 日常生活における介助支援の需要の高まり • 生活支援ロボット – 被介助者を物理的に支援可能 – 在宅介助者不足を解消 フライパンを白い机に運んで 2

Slide 3

Slide 3 text

問題設定:Dual Referring Expression Comprehension (DREC) • 物体検出により抽出した各領域から, および を特定 • 入力 ① 指示文 ② 対象物体候補の領域 ③ 配置目標候補の領域 ④ 画像中の各物体および配置先の領域 • 出力 – 対象物体候補および配置目標候補が,ともに指示文のGround Truthに一致する確率 – 望ましい出力:一致すれば1,しなければ0 “Move the to the .” 対象物体候補の画像 配置目標候補の画像 3 対象物体 配置目標 frying pan white table

Slide 4

Slide 4 text

関連研究 手法 概要 MTCM [Magassouba+, RA-L19] ・自然言語による指示文と全体画像を入力とし,対象物体を特定 ・VGG-16およびLSTMを使用 Target-dependent UNITER [Ishikawa+, RA-L21] ・対象物体候補を扱う新規構造を導入した UNITER [Chen+, ECCV20] 型注意機構を使用 Funnel UNITER [吉田+, JSAI22] ・Target-dependent UNITERに, Funnel Transformer [Dai+, NeurIPS20] に基づく次元削減を導入 Object Memory Transformer [Fukushima+, ICRA22] ・3次元屋内環境におけるobject goal navigation ・Object-Scene Memoryを用いてシーケンス中の物体に注目 Object Memory Transformer 4 Target-dependent UNITER

Slide 5

Slide 5 text

Funnel UNITERの課題: 要する推論回数が膨大で,リアルタイム性において非実用的 • 目標:指示文に対する最尤の組(対象物体,配置目標)の探索  推論回数のオーダーが 𝑂(𝑀 × 𝑁) 例)𝑀 = 𝑁 = 100,1回の推論時間を0.004秒と仮定 判断に40秒必要 5 𝑀:対象物体候補数 𝑁:配置目標候補数 ・・・ ( , ) … ( , ) ? 部屋2 部屋1

Slide 6

Slide 6 text

提案手法:Switching Funnel UNITER • Funnel UNITERを,単一モデルで対象物体/配置目標を独立に予測可能に拡張 – 推論回数のオーダーを 𝑂(𝑀 + 𝑁) に削減 – 4つのモジュールで構成 6 ( , ) ! ( ),… ,( ) ( ),… ,( )

Slide 7

Slide 7 text

1. Switcher:予測対象が対象物体/配置目標のどちらかに応じて入力切替 • ① target mode:対象物体を予測,② destination mode:配置目標を予測 – 𝒙targ , 𝒙dest , 𝒙det :Faster R-CNN [Ren+, PAMI16] から抽出した領域の特徴量 – 𝒙targloc , 𝒙destloc , 𝒙detloc :矩形領域の位置に関する特徴量 7 不要な入力を0埋めして条件付け(𝒙targloc , 𝒙destloc も同様) 𝒙targ , 𝒙dest = ൝ (𝒙targ , 𝟎) if target mode (𝟎, 𝒙dest ) if destination mode 各モードの対象ではない入力は不使用 𝒙det ,𝒙detloc :周囲の物体および配置先の特徴量

Slide 8

Slide 8 text

2. Image Embedder, 3. Text Embedder:画像/指示文の埋め込み • Image Embedder – 𝑓FC :全結合層,𝑓LN :Layer Normalization • Text Embedder:指示文に対しWordPieceによるトークン化 – 𝒙inst :トークンID (one-hot),𝒙pos :トークンの位置 (one-hot) 8 𝒉′targ = 𝑓LN (𝑓FC 𝒙targ + 𝑓FC 𝒙targloc ) 𝒉′dest ,𝒉′det も同様に算出し,連結 𝒉′txtemb = 𝑓LN 𝑾inst 𝒙inst + 𝑾pos 𝒙pos 𝑾inst ,𝑾pos :学習可能パラメータ

Slide 9

Slide 9 text

4. Funnel Transformer:𝐿 層繰り返し,モードに応じて出力を選択 • target modeでは𝑝(ෝ 𝒚targ ),destination modeでは𝑝(ෝ 𝒚dest )を予測確率と解釈 • 単一モデルでマルチタスク学習 – 𝜆∗ :ハイパーパラメータ,ℒ∗ :各モードにおける交差エントロピー誤差 9 𝒉′imgemb ,𝒉′txtemb を連結し入力 ℒ = 𝜆targ ℒtarg + 𝜆dest ℒdest

Slide 10

Slide 10 text

実験設定:”ALFRED-fc” データセットを収集し,性能を評価 • ALFRED [Shridhar+, CVPR20] – 物体操作を含むVision-Language Navigationの標準ベンチマーク • ALFRED-fc (fetch and carry):DRECのための新規データセット ☺ ALFREDから,物体把持直前/配置直後の画像を収集 ☺ 配置後の物体を0埋めしてマスク 10  把持中の物体で 視野が遮蔽  配置後の物体が写る 配置前 配置後 ALFRED-fc

Slide 11

Slide 11 text

定量的結果:ベースライン手法を上回る性能 • 対象物体/配置目標を同時に予測するベースライン手法に合わせて評価 – 正解ラベル(真偽値): 𝑦 = 𝑦targ ∩ 𝑦dest – 予測ラベル(真偽値): ො 𝑦 = ො 𝑦targ ∩ ො 𝑦dest ✓ ベースライン手法を精度で上回る ✓ マルチタスク学習/0埋めともに有効 手法 Accuracy [%] Funnel UNITER [吉田+, JSAI22] 79.4 ± 2.76 提案手法 (w/o マルチタスク学習) 76.9 ± 2.91 提案手法 (w/o Switcherにおける0埋め) 80.4 ± 5.31 提案手法 83.1 ± 2.00 +3.7 11

Slide 12

Slide 12 text

定性的結果:成功例/失敗例 • 正例に対する成功例 “Move the soap from the shelves to the metal rack.” “Put a towel in the bath tub.” • 負例に対する失敗例 ☺ 対象物体候補が鏡に映った ものであると判断する難しさ  12 対象物体候補/配置目標候補が, ともにGround Truthに一致すると正しく予測 対象物体候補が、 Ground Truthに一致すると誤って予測

Slide 13

Slide 13 text

まとめ 背景 ✓ 生活支援ロボットに自然言語で指示できると便利 提案 ✓ Switcherおよびマルチタスク学習の導入により, 単一モデルで対象物体および配置目標の予測を実現 ✓ 推論方法の工夫により,必要な推論回数を削減 結果 ✓ ALFREDを基にしたデータセットにおいて, ベースライン手法を分類精度で上回った 13