Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Target-dependent UNITERに基づく対象物体に関する参照表現を含む物体操作指示理解/Target-dependent UNITER

Target-dependent UNITERに基づく対象物体に関する参照表現を含む物体操作指示理解/Target-dependent UNITER

Presented at JSAI21

6f7b7931d8ce4dc1349767c8b086f355?s=128

keio_smilab

June 11, 2021
Tweet

Transcript

  1. Target-dependent UNITERに基づく 対象物体に関する参照表現を含む物体操作指示理解 慶應義塾大学 石川慎太朗,杉浦孔明

  2.  物体操作指示理解タスクを実行するTarget-dependent UNITERモデルを提案 概要 1  対象物体候補を扱う新規構造を導入  標準データセットにおいて, 

    画像とテキストの関係性を学習するUNITER型注意機構を利用 ベースライン手法を精度で上回る
  3. 背景:生活支援ロボットに自然言語で命令できれば便利 高齢化が進行する現代社会において,日常生活における介護の必要性が高まっている 2  生活支援ロボット - 障がいを持つ人々を物理的に支援可能 - 在宅介護者の不足を克服 スムーズな対話に基づいて

    生活支援タスクを実行できれば便利 例) 「机の上の飲み物を取ってきて」 [https://global.toyota/jp/download/8725271]
  4. 対象物体の特定が困難なシーンが存在 状況によっては,対象物体の特定が困難な場合がある 3 “Grab the red can near to white

    bottle and put it in the lower left box.” e.g.) シーン内に対象物体候補が複数存在 命令文中の参照表現を理解することで 対象物体を正確に特定可能 どっちの缶? 命令文に対する言語理解に加え, シーン内の物体間の関係性も学習したい
  5. 問題設定:物体操作指示理解 4 • 対象タスク: Multimodal Language Understanding for Fetching Instruction

    (MLU-FI) • 入力:命令文,画像中の各物体の領域,対象物体候補の領域 • 出力:対象物体候補が対象物体である確率の予測値 Pick up the empty bottle on the shelf - 命令文と画像をもとに,対象となっている物体を特定する
  6. 関連研究:物体操作指示理解における既存手法は精度が不十分 5 分野 例 Vision and Language • ViLBERT [Lu

    19]:画像とテキストを異なるストリームで処理 • UNITER [Chen 20]:同一のTransformerにおいて画像とテキストを処理 • VILLA [Gan 20]:各モダリティの埋め込み空間に摂動を付与する敵対的学習 物体操作指示理解 • [Hatori 18]:物体のピッキングタスクにおける指示理解手法 • MTCM, MTCM-AB [Magassouba 19, 20]:命令文と全体画像から対象物体を特定 VILLA[Gan 20] [Hatori 18]
  7. 提案手法:Target-dependent UNITER 6 Target-dependent UNITER:汎用事前学習モデルとUNITER型注意機構 [Chen 20] をMLU-FIタスクに拡張 → 対象物体に関する判定を直接的に行うことが可能

     新規性:対象物体候補の情報 (Candidate region) を扱う新規構造を導入
  8. 構成モジュール:Text Embedder 7 Text Embedder:命令文の埋め込み処理を実行 • 𝒙𝒙𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 :命令文中の各トークンを表すone-hotベクトル集合 命令文中の各単語をWordPieceによってトークン化 e.g.)

    “Pick up the empty bottle on the shelf.” → [“Pick”, “up”, “the”, ”empty”, ”bottle”, “on”, “the”, “shelf”, “.”] :命令文中の各トークンの位置を表すone-hotベクトル集合 • 𝒙𝒙𝑝𝑝𝑝𝑝𝑝𝑝
  9. 構成モジュール:Image Embedder 8 Image Embedder:画像の埋め込み処理を実行 • 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 • 𝒙𝒙𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 :画像中の各物体の領域の特徴量ベクトル集合

    :𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 から抽出した判定対象の領域の特徴量ベクトル • 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐_𝑙𝑙𝑙𝑙𝑙𝑙 • 𝒙𝒙𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡_𝑙𝑙𝑙𝑙𝑙𝑙 :画像中の各物体の領域の位置情報ベクトル集合 : 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐_𝑙𝑙𝑙𝑙𝑙𝑙 から抽出した判定対象の領域の位置情報ベクトル 各領域の特徴量ベクトルはFaster R-CNN[Ren 16]によって獲得 矩形領域の左上と右下の頂点の座標を元にした7次元ベクトルを使用
  10. 構成モジュール:Multi-layer Transformer 9 Multi-layer Transformer:画像とテキストの関係性を学習 - 入力 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 からquery 𝑄𝑄

    𝑖𝑖 ,key 𝐾𝐾 𝑖𝑖 ,value 𝑉𝑉 𝑖𝑖 を生成 𝑄𝑄 𝑖𝑖 = 𝑊𝑊 𝑞𝑞 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 - 𝑄𝑄 𝑖𝑖 , 𝐾𝐾 𝑖𝑖 , 𝑉𝑉 𝑖𝑖 に基づき,Attentionスコア 𝑆𝑆𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 を算出  Multi-Head Attention層における処理 𝑆𝑆𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 = 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 1 , … , 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐴𝐴 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑖𝑖 = 𝑉𝑉 𝑖𝑖 softmax 𝑄𝑄 𝑖𝑖 𝐾𝐾 𝑖𝑖 𝑇𝑇 𝑑𝑑𝑘𝑘 𝐾𝐾 𝑖𝑖 = 𝑊𝑊 𝑘𝑘 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 𝑉𝑉 𝑖𝑖 = 𝑊𝑊 𝑣𝑣 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 Attentionの可視化
  11. 実験:MLU-FIタスクにおける提案手法の性能評価 10  データセット(画像および画像中の物体に関する命令文から構成) Name Image Instruction Vocabulary size Average

    sentence length PFN-PIC [Hatori 18] 1180 90759 4682 14.2 WRS-UniALT 570 1246 167 7.1 “Pick up the white box next to the red bottle and put it in the lower left box” “Pick up the empty bottle on the shelf”
  12. 定量的結果:提案手法がベースライン手法を精度で上回る 11 Method PFN-PIC (Top-1 accuracy) PFN-PIC (Binary accuracy) WRS-UniALT

    (Binary accuracy) [Hatori+, ICRA18 Best Paper] 88.0 - - MTCM [Magassouba+, IROS19] 88.8 ± 0.43 90.1 ± 0.93 91.8 ± 0.36 Ours (All regions) - 96.9 ± 0.34 96.4 ± 0.24 Ours (Proximal regions only) - 97.2 ± 0.29 96.5 ± 0.19 入力する領域を近接領域のみに限定 することで性能が向上 • All regions:Faster R-CNNによって検出した全領域を入力 • Proximal regions only:対象物体候補の近接領域のみを入力 <提案手法>
  13. 定性的結果:成功例 12 ほぼ正確に対象領域であると判定 ほぼ正確に対象領域ではないと判定 “Take the can juice on the

    white shelf” 𝑝𝑝 � 𝒚𝒚 = 8.19 × 10−18 “Pick up the black cup in the bottom right section of the box and move it to the bottom left section of the box” 𝑝𝑝 � 𝒚𝒚 = 0.999
  14. 定性的結果:Attentionの可視化 13 対象物体の ”gray container” や,参照表現を 構成する ”next to” および

    ”bottle” に注目して いる 対象物体の周辺物体に注目している
  15. 定性的結果:失敗例 14 候補領域に複数物体の特徴量が含まれて いるため,予測に失敗 “Move the green rectangle with white

    on the side from the upper left box, to the lower left box” 𝑝𝑝 � 𝒚𝒚 = 0.978 “Take the white cup on the corner of the table.” 𝑝𝑝 � 𝒚𝒚 = 0.999 候補領域が非常に小さく,細かい特徴量が 失われているため,予測に失敗
  16. Ablation study 15 Method PFN-PIC WRS-UniALT Ours (W/o FRCNN fine-tuning)

    91.5 ± 0.69 94.0 ± 1.49 Ours (Late fusion) 96.0 ± 0.08 96.0 ± 0.24 Ours (Few regions) 96.6 ± 0.36 95.8 ± 0.71 Ours (W/o pretraining) 96.8 ± 0.34 95.4 ± 0.19 Ours 96.9 ± 0.34 96.4 ± 0.24 • W/o FRCNN fine-tuning:Faster R-CNNをファインチューニングせずに物体検出 • Late fusion:対象物体候補の情報をモデルの最後に連結 • Few regions:入力する領域の数を無作為に半分に減らす • W/o pretraining:MSCOCOデータセット [Lin 14] による事前学習なし いずれのデータセットにおいても 各条件が性能向上に寄与 <Ablation conditions>
  17. まとめ 16 背景:生活支援ロボットに自然言語で命令できれば便利 提案:物体操作指示理解タスクにおいて,画像とテキストの関係性を学習する 結果:標準データセットにおいて, UNITER型注意機構を元にしたTarget-dependent UNITER ベースライン手法を精度で上回る