Slide 1

Slide 1 text

Target-dependent UNITERに基づく 対象物体に関する参照表現を含む物体操作指示理解 慶應義塾大学 石川慎太朗,杉浦孔明

Slide 2

Slide 2 text

 物体操作指示理解タスクを実行するTarget-dependent UNITERモデルを提案 概要 1  対象物体候補を扱う新規構造を導入  標準データセットにおいて,  画像とテキストの関係性を学習するUNITER型注意機構を利用 ベースライン手法を精度で上回る

Slide 3

Slide 3 text

背景:生活支援ロボットに自然言語で命令できれば便利 高齢化が進行する現代社会において,日常生活における介護の必要性が高まっている 2  生活支援ロボット - 障がいを持つ人々を物理的に支援可能 - 在宅介護者の不足を克服 スムーズな対話に基づいて 生活支援タスクを実行できれば便利 例) 「机の上の飲み物を取ってきて」 [https://global.toyota/jp/download/8725271]

Slide 4

Slide 4 text

対象物体の特定が困難なシーンが存在 状況によっては,対象物体の特定が困難な場合がある 3 “Grab the red can near to white bottle and put it in the lower left box.” e.g.) シーン内に対象物体候補が複数存在 命令文中の参照表現を理解することで 対象物体を正確に特定可能 どっちの缶? 命令文に対する言語理解に加え, シーン内の物体間の関係性も学習したい

Slide 5

Slide 5 text

問題設定:物体操作指示理解 4 • 対象タスク: Multimodal Language Understanding for Fetching Instruction (MLU-FI) • 入力:命令文,画像中の各物体の領域,対象物体候補の領域 • 出力:対象物体候補が対象物体である確率の予測値 Pick up the empty bottle on the shelf - 命令文と画像をもとに,対象となっている物体を特定する

Slide 6

Slide 6 text

関連研究:物体操作指示理解における既存手法は精度が不十分 5 分野 例 Vision and Language • ViLBERT [Lu 19]:画像とテキストを異なるストリームで処理 • UNITER [Chen 20]:同一のTransformerにおいて画像とテキストを処理 • VILLA [Gan 20]:各モダリティの埋め込み空間に摂動を付与する敵対的学習 物体操作指示理解 • [Hatori 18]:物体のピッキングタスクにおける指示理解手法 • MTCM, MTCM-AB [Magassouba 19, 20]:命令文と全体画像から対象物体を特定 VILLA[Gan 20] [Hatori 18]

Slide 7

Slide 7 text

提案手法:Target-dependent UNITER 6 Target-dependent UNITER:汎用事前学習モデルとUNITER型注意機構 [Chen 20] をMLU-FIタスクに拡張 → 対象物体に関する判定を直接的に行うことが可能  新規性:対象物体候補の情報 (Candidate region) を扱う新規構造を導入

Slide 8

Slide 8 text

構成モジュール:Text Embedder 7 Text Embedder:命令文の埋め込み処理を実行 • 𝒙𝒙𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 :命令文中の各トークンを表すone-hotベクトル集合 命令文中の各単語をWordPieceによってトークン化 e.g.) “Pick up the empty bottle on the shelf.” → [“Pick”, “up”, “the”, ”empty”, ”bottle”, “on”, “the”, “shelf”, “.”] :命令文中の各トークンの位置を表すone-hotベクトル集合 • 𝒙𝒙𝑝𝑝𝑝𝑝𝑝𝑝

Slide 9

Slide 9 text

構成モジュール:Image Embedder 8 Image Embedder:画像の埋め込み処理を実行 • 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 • 𝒙𝒙𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 :画像中の各物体の領域の特徴量ベクトル集合 :𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 から抽出した判定対象の領域の特徴量ベクトル • 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐_𝑙𝑙𝑙𝑙𝑙𝑙 • 𝒙𝒙𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡_𝑙𝑙𝑙𝑙𝑙𝑙 :画像中の各物体の領域の位置情報ベクトル集合 : 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐_𝑙𝑙𝑙𝑙𝑙𝑙 から抽出した判定対象の領域の位置情報ベクトル 各領域の特徴量ベクトルはFaster R-CNN[Ren 16]によって獲得 矩形領域の左上と右下の頂点の座標を元にした7次元ベクトルを使用

Slide 10

Slide 10 text

構成モジュール:Multi-layer Transformer 9 Multi-layer Transformer:画像とテキストの関係性を学習 - 入力 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 からquery 𝑄𝑄 𝑖𝑖 ,key 𝐾𝐾 𝑖𝑖 ,value 𝑉𝑉 𝑖𝑖 を生成 𝑄𝑄 𝑖𝑖 = 𝑊𝑊 𝑞𝑞 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 - 𝑄𝑄 𝑖𝑖 , 𝐾𝐾 𝑖𝑖 , 𝑉𝑉 𝑖𝑖 に基づき,Attentionスコア 𝑆𝑆𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 を算出  Multi-Head Attention層における処理 𝑆𝑆𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 = 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 1 , … , 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐴𝐴 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑖𝑖 = 𝑉𝑉 𝑖𝑖 softmax 𝑄𝑄 𝑖𝑖 𝐾𝐾 𝑖𝑖 𝑇𝑇 𝑑𝑑𝑘𝑘 𝐾𝐾 𝑖𝑖 = 𝑊𝑊 𝑘𝑘 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 𝑉𝑉 𝑖𝑖 = 𝑊𝑊 𝑣𝑣 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 Attentionの可視化

Slide 11

Slide 11 text

実験:MLU-FIタスクにおける提案手法の性能評価 10  データセット(画像および画像中の物体に関する命令文から構成) Name Image Instruction Vocabulary size Average sentence length PFN-PIC [Hatori 18] 1180 90759 4682 14.2 WRS-UniALT 570 1246 167 7.1 “Pick up the white box next to the red bottle and put it in the lower left box” “Pick up the empty bottle on the shelf”

Slide 12

Slide 12 text

定量的結果:提案手法がベースライン手法を精度で上回る 11 Method PFN-PIC (Top-1 accuracy) PFN-PIC (Binary accuracy) WRS-UniALT (Binary accuracy) [Hatori+, ICRA18 Best Paper] 88.0 - - MTCM [Magassouba+, IROS19] 88.8 ± 0.43 90.1 ± 0.93 91.8 ± 0.36 Ours (All regions) - 96.9 ± 0.34 96.4 ± 0.24 Ours (Proximal regions only) - 97.2 ± 0.29 96.5 ± 0.19 入力する領域を近接領域のみに限定 することで性能が向上 • All regions:Faster R-CNNによって検出した全領域を入力 • Proximal regions only:対象物体候補の近接領域のみを入力 <提案手法>

Slide 13

Slide 13 text

定性的結果:成功例 12 ほぼ正確に対象領域であると判定 ほぼ正確に対象領域ではないと判定 “Take the can juice on the white shelf” 𝑝𝑝 � 𝒚𝒚 = 8.19 × 10−18 “Pick up the black cup in the bottom right section of the box and move it to the bottom left section of the box” 𝑝𝑝 � 𝒚𝒚 = 0.999

Slide 14

Slide 14 text

定性的結果:Attentionの可視化 13 対象物体の ”gray container” や,参照表現を 構成する ”next to” および ”bottle” に注目して いる 対象物体の周辺物体に注目している

Slide 15

Slide 15 text

定性的結果:失敗例 14 候補領域に複数物体の特徴量が含まれて いるため,予測に失敗 “Move the green rectangle with white on the side from the upper left box, to the lower left box” 𝑝𝑝 � 𝒚𝒚 = 0.978 “Take the white cup on the corner of the table.” 𝑝𝑝 � 𝒚𝒚 = 0.999 候補領域が非常に小さく,細かい特徴量が 失われているため,予測に失敗

Slide 16

Slide 16 text

Ablation study 15 Method PFN-PIC WRS-UniALT Ours (W/o FRCNN fine-tuning) 91.5 ± 0.69 94.0 ± 1.49 Ours (Late fusion) 96.0 ± 0.08 96.0 ± 0.24 Ours (Few regions) 96.6 ± 0.36 95.8 ± 0.71 Ours (W/o pretraining) 96.8 ± 0.34 95.4 ± 0.19 Ours 96.9 ± 0.34 96.4 ± 0.24 • W/o FRCNN fine-tuning:Faster R-CNNをファインチューニングせずに物体検出 • Late fusion:対象物体候補の情報をモデルの最後に連結 • Few regions:入力する領域の数を無作為に半分に減らす • W/o pretraining:MSCOCOデータセット [Lin 14] による事前学習なし いずれのデータセットにおいても 各条件が性能向上に寄与

Slide 17

Slide 17 text

まとめ 16 背景:生活支援ロボットに自然言語で命令できれば便利 提案:物体操作指示理解タスクにおいて,画像とテキストの関係性を学習する 結果:標準データセットにおいて, UNITER型注意機構を元にしたTarget-dependent UNITER ベースライン手法を精度で上回る