Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Target-dependent UNITERに基づく対象物体に関する参照表現を含む物体操作指...

Target-dependent UNITERに基づく対象物体に関する参照表現を含む物体操作指示理解/Target-dependent UNITER

Presented at JSAI21

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 対象物体の特定が困難なシーンが存在 状況によっては,対象物体の特定が困難な場合がある 3 “Grab the red can near to white

    bottle and put it in the lower left box.” e.g.) シーン内に対象物体候補が複数存在 命令文中の参照表現を理解することで 対象物体を正確に特定可能 どっちの缶? 命令文に対する言語理解に加え, シーン内の物体間の関係性も学習したい
  2. 問題設定:物体操作指示理解 4 • 対象タスク: Multimodal Language Understanding for Fetching Instruction

    (MLU-FI) • 入力:命令文,画像中の各物体の領域,対象物体候補の領域 • 出力:対象物体候補が対象物体である確率の予測値 Pick up the empty bottle on the shelf - 命令文と画像をもとに,対象となっている物体を特定する
  3. 関連研究:物体操作指示理解における既存手法は精度が不十分 5 分野 例 Vision and Language • ViLBERT [Lu

    19]:画像とテキストを異なるストリームで処理 • UNITER [Chen 20]:同一のTransformerにおいて画像とテキストを処理 • VILLA [Gan 20]:各モダリティの埋め込み空間に摂動を付与する敵対的学習 物体操作指示理解 • [Hatori 18]:物体のピッキングタスクにおける指示理解手法 • MTCM, MTCM-AB [Magassouba 19, 20]:命令文と全体画像から対象物体を特定 VILLA[Gan 20] [Hatori 18]
  4. 構成モジュール:Text Embedder 7 Text Embedder:命令文の埋め込み処理を実行 • 𝒙𝒙𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 :命令文中の各トークンを表すone-hotベクトル集合 命令文中の各単語をWordPieceによってトークン化 e.g.)

    “Pick up the empty bottle on the shelf.” → [“Pick”, “up”, “the”, ”empty”, ”bottle”, “on”, “the”, “shelf”, “.”] :命令文中の各トークンの位置を表すone-hotベクトル集合 • 𝒙𝒙𝑝𝑝𝑝𝑝𝑝𝑝
  5. 構成モジュール:Image Embedder 8 Image Embedder:画像の埋め込み処理を実行 • 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 • 𝒙𝒙𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 :画像中の各物体の領域の特徴量ベクトル集合

    :𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 から抽出した判定対象の領域の特徴量ベクトル • 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐_𝑙𝑙𝑙𝑙𝑙𝑙 • 𝒙𝒙𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡_𝑙𝑙𝑙𝑙𝑙𝑙 :画像中の各物体の領域の位置情報ベクトル集合 : 𝒙𝒙𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐_𝑙𝑙𝑙𝑙𝑙𝑙 から抽出した判定対象の領域の位置情報ベクトル 各領域の特徴量ベクトルはFaster R-CNN[Ren 16]によって獲得 矩形領域の左上と右下の頂点の座標を元にした7次元ベクトルを使用
  6. 構成モジュール:Multi-layer Transformer 9 Multi-layer Transformer:画像とテキストの関係性を学習 - 入力 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 からquery 𝑄𝑄

    𝑖𝑖 ,key 𝐾𝐾 𝑖𝑖 ,value 𝑉𝑉 𝑖𝑖 を生成 𝑄𝑄 𝑖𝑖 = 𝑊𝑊 𝑞𝑞 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 - 𝑄𝑄 𝑖𝑖 , 𝐾𝐾 𝑖𝑖 , 𝑉𝑉 𝑖𝑖 に基づき,Attentionスコア 𝑆𝑆𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 を算出  Multi-Head Attention層における処理 𝑆𝑆𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 = 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 1 , … , 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐴𝐴 𝑓𝑓𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑖𝑖 = 𝑉𝑉 𝑖𝑖 softmax 𝑄𝑄 𝑖𝑖 𝐾𝐾 𝑖𝑖 𝑇𝑇 𝑑𝑑𝑘𝑘 𝐾𝐾 𝑖𝑖 = 𝑊𝑊 𝑘𝑘 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 𝑉𝑉 𝑖𝑖 = 𝑊𝑊 𝑣𝑣 𝑖𝑖 𝒉𝒉𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 Attentionの可視化
  7. 実験:MLU-FIタスクにおける提案手法の性能評価 10  データセット(画像および画像中の物体に関する命令文から構成) Name Image Instruction Vocabulary size Average

    sentence length PFN-PIC [Hatori 18] 1180 90759 4682 14.2 WRS-UniALT 570 1246 167 7.1 “Pick up the white box next to the red bottle and put it in the lower left box” “Pick up the empty bottle on the shelf”
  8. 定量的結果:提案手法がベースライン手法を精度で上回る 11 Method PFN-PIC (Top-1 accuracy) PFN-PIC (Binary accuracy) WRS-UniALT

    (Binary accuracy) [Hatori+, ICRA18 Best Paper] 88.0 - - MTCM [Magassouba+, IROS19] 88.8 ± 0.43 90.1 ± 0.93 91.8 ± 0.36 Ours (All regions) - 96.9 ± 0.34 96.4 ± 0.24 Ours (Proximal regions only) - 97.2 ± 0.29 96.5 ± 0.19 入力する領域を近接領域のみに限定 することで性能が向上 • All regions:Faster R-CNNによって検出した全領域を入力 • Proximal regions only:対象物体候補の近接領域のみを入力 <提案手法>
  9. 定性的結果:成功例 12 ほぼ正確に対象領域であると判定 ほぼ正確に対象領域ではないと判定 “Take the can juice on the

    white shelf” 𝑝𝑝 � 𝒚𝒚 = 8.19 × 10−18 “Pick up the black cup in the bottom right section of the box and move it to the bottom left section of the box” 𝑝𝑝 � 𝒚𝒚 = 0.999
  10. 定性的結果:失敗例 14 候補領域に複数物体の特徴量が含まれて いるため,予測に失敗 “Move the green rectangle with white

    on the side from the upper left box, to the lower left box” 𝑝𝑝 � 𝒚𝒚 = 0.978 “Take the white cup on the corner of the table.” 𝑝𝑝 � 𝒚𝒚 = 0.999 候補領域が非常に小さく,細かい特徴量が 失われているため,予測に失敗
  11. Ablation study 15 Method PFN-PIC WRS-UniALT Ours (W/o FRCNN fine-tuning)

    91.5 ± 0.69 94.0 ± 1.49 Ours (Late fusion) 96.0 ± 0.08 96.0 ± 0.24 Ours (Few regions) 96.6 ± 0.36 95.8 ± 0.71 Ours (W/o pretraining) 96.8 ± 0.34 95.4 ± 0.19 Ours 96.9 ± 0.34 96.4 ± 0.24 • W/o FRCNN fine-tuning:Faster R-CNNをファインチューニングせずに物体検出 • Late fusion:対象物体候補の情報をモデルの最後に連結 • Few regions:入力する領域の数を無作為に半分に減らす • W/o pretraining:MSCOCOデータセット [Lin 14] による事前学習なし いずれのデータセットにおいても 各条件が性能向上に寄与 <Ablation conditions>