Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning

[Journal club] Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 Iterative Shrinking for Referring Expression Grounding Using

    Deep Reinforcement Learning Mingjie Sun1,2, Jimin Xiao1, Eng Gee Lim1 (1Xi’an Jiaotong-Liverpool University, 2University of Liverpool) CVPR 2021 Sun, Mingjie, Jimin Xiao, and Eng Gee Lim. "Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning." CVPR 2021.
  2. 概要 背景 ✓ Referring Expression Grounding (REG) における、proposal-freeな手法の需要 提案 ✓

    参照物体との関係を考慮したIterative Shrinking ✓ REGに深層強化学習を初めて導入 結果 ✓ RefCOCOgにおいて、SOTAを4.32%更新 ✓ 参照表現の解釈過程を可視化 2
  3. 関連研究:参照物体の理解に限界・解釈過程が不明瞭 ◼ proposal-freeな手法:特徴点のマッチングが主流 ◼ 欠点 ✓ 対象・参照物体を両方含む特徴点の欠落 ✓ 判断理由が分からずエラー分析が困難 4

    Model Detail RCCF [Liao+ CVPR20] ・クエリ文とimage feature mapとの類似度を計算 ・最も類似度が高い座標を対象物体の中心とみなす FAOAVG [Yang+ ICCV19] ・画像特徴と言語特徴を融合したmulti-modal feature mapを作成 ・YOLOv3 [Redmon+ 18] と同様、各点が背景か物体か分類 query: “the orange cat above the shelf”
  4. 提案手法:ISREG (Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement

    Learning) ◼ 深層強化学習を用いたIterative Shrinkingによりproposal-freeを実現 ◼ Markov Decision Process (MDP) [Jaakkola+ NeurIPS94] で定式化 ◼ 領域縮小の繰り返しにより対象物体領域を決定 ◼ クエリ文の解釈過程を可視化 ◼ 「対象物体」↔「参照物体」の関係性を理解 5 query: “the orange cat above the shelf”
  5. FPN: ① up-sampling ② average-pooling 視覚特徴:スケールの異なる3つの特徴を獲得 ◼ ResNet [He+ CVPR16]

    及び Feature Pyramid Network (FPN) [Lin+ CVPR17] ◼ 小さな物体の検出に有効 7 𝑓𝑝𝑖 ෦ 𝑣1:[28 × 28 × 512] 𝑓𝑝𝑖 ෦ 𝑣2:[14 × 14 × 1024] 𝑓𝑝𝑖 ෦ 𝑣3:[7 × 7 × 2048] 𝑓𝑝𝑖 𝑣1 𝑓𝑝𝑖 𝑣2 𝑓𝑝𝑖 𝑣3 ResNetの途中層 同一 (𝐷𝑣) 次元の視覚特徴
  6. 言語特徴 (1/2):対象・参照物体を区別する情報を抽出 ◼ クエリ文を三つ組 (target, reference, discriminative) の集合に分割 ◼ Stanford

    CoreNLP [Chen+ EMNLP14] による構文解析 ① target:対象物体 ② reference:参照物体 ③ discriminative:両者の相違点や関係性 8 例:1つのクエリ文を5つの三つ組に分割
  7. 言語特徴 (2/2):単語をベクトル表現で埋め込み ◼ GloVe [Pennington+ EMNLP14] により各単語をベクトルで表現 9 𝑓𝑡𝑘 𝑙

    = 𝑓 𝑡𝑘 𝑡 𝑙 ⊕ 𝑓 𝑡𝑘 𝑟 𝑙 ⊕ 𝑓 𝑡𝑘 𝑑 𝑙 𝑓𝑞 𝑙 = 𝑓𝑡1 𝑙 ⊕ 𝑓𝑡2 𝑙 ⊕ ⋯ ⊕ 𝑓𝑡𝑀 𝑙 例:1つのクエリ文を5つの三つ組に分割 ① 組内 (target, reference, discriminative) でconcat ② 組同士(合計 𝑀(= 2) 組)をconcat
  8. 空間特徴:矩形領域の相対位置・面積を埋め込み 10 𝑓𝑝𝑖 𝑠 = 𝑥0 𝑊 , 𝑦0 𝐻

    , 𝑥1 𝑊 , 𝑦1 𝐻 , 𝑤 ⋅ ℎ 𝑊 ⋅ 𝐻 拡大 𝑝𝑖 :𝑖 回目の縮小時点での矩形領域 ※ 初期値 𝑝1 は画像全体
  9. Actor:方策 𝜋(𝑠, 𝑎) に基づき行動選択 ◼ 5択から選択 ◼ 𝑎1, 𝑎2, 𝑎3,

    𝑎4:4方向の縮小 ◼ 𝑎5:終了 ◼ 縮小幅は領域サイズ [𝑥0 , 𝑦0 , 𝑥1 , 𝑦1 ] で可変 ◼ 目的:序盤は大幅、終盤は小幅 11 ො 𝑦0 = 𝑦0 + 𝛼 𝑦1 − 𝑦0 , if 𝑎𝑖 = 𝑎1 ො 𝑦1 = 𝑦1 − 𝛼 𝑦1 − 𝑦0 , if 𝑎𝑖 = 𝑎2 ො 𝑥0 = 𝑥0 + 𝛼 𝑥1 − 𝑥0 , if 𝑎𝑖 = 𝑎3 ො 𝑥1 = 𝑥1 − 𝛼 𝑥1 − 𝑥0 , if 𝑎𝑖 = 𝑎4 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5
  10. Critic:報酬 𝑟𝑖 に基づき行動評価 ◼ ground-truthとのIoUが大きいほど高報酬 ◼ ただし、前回より改善していない限り0 ◼ 推論時はActorのみ動作 12

    𝑟𝑖 = ቐ 0 𝐼𝑜𝑈𝑖 < 0.3 or Δ𝐼𝑜𝑈 ≤ 0 1 0.3 ≤ 𝐼𝑜𝑈𝑖 < 0.5 and 0 < Δ𝐼𝑜𝑈 10 0.5 ≤ 𝐼𝑜𝑈𝑖 and 0 < Δ𝐼𝑜𝑈 ∆𝐼𝑜𝑈 = 𝐼𝑜𝑈𝑖 − 𝐼𝑜𝑈𝑖−1 前回との差分 報酬
  11. Actor-Critic [Mnih+ ICML16]:Actor, Criticの順に交互に学習 ◼ Actor:TD誤差 𝛿𝑖 により、方策 𝜋(𝑠, 𝑎)

    を学習 ◼ Policy-Based:状態から直接最適な行動を予測 ◼ Critic:TD誤差 𝛿𝑖 により、状態価値関数 𝑉(𝑠)(=収益の期待値)を学習 ◼ Value-Based:状態価値関数をモデル化 13 𝜃 = 𝜃′ + 𝑙𝑎 ∇ log 𝜋𝜃′ 𝑠𝑖 , 𝑎𝑖 𝐴(𝑠𝑖 , 𝑎𝑖 ) 𝐴 𝑠𝑖 , 𝑎𝑖 = 𝛿𝑖 = 𝑟𝑖 + 𝛾𝑉𝑤′ 𝑠𝑖+1 − 𝑉𝑤′ (𝑠𝑖 ) 𝑤 = 𝑤′ + 𝑙𝑐 𝛿𝑖 ∇𝑤′ 𝑉𝑤′ (𝑠𝑖 ) 𝑙𝑎 , 𝑙𝑐 :学習率 𝛾:割引率
  12. まとめ 16 背景 ✓ REGにおける、proposal-freeな手法の需要 提案 ✓ 参照物体との関係を考慮したIterative Shrinking ✓

    REGに深層強化学習を初めて導入 結果 ✓ RefCOCOgにおいて、SOTAを4.32%更新 ✓ 参照表現の解釈過程を可視化
  13. Appendix:Ablation Study ◼ 考察 ✓ 三つ組 (triad) の代わりに BERT [Devlin+

    18] による特徴抽出を用いると、9.88%低下 ✓ 可変縮小幅を固定長 (𝛼𝐻 or 𝛼𝑊) にすると、30.59%低下 ✓ 強化学習を教師あり学習で代替すると、8.69%低下 17
  14. Appendix:Temporal Difference (TD) 法 ◼ 各行動ごとに状態価値関数 𝑉(𝑠) を更新する手法 ◼ 収益確定前の更新により、学習を高速化

    ◼ モンテカルロ法における 𝑉(𝑠𝑖 ) の目標を変更 ◼ 収益 𝐺𝑖 = 𝑟𝑖 + 𝛾𝐺𝑖+1 ではなく、TDターゲット 𝑟𝑖 + 𝛾𝑉(𝑠𝑖+1 ) 18 https://shirakonotempura.hatenablog.com/entry/2019/02/02/094140 モンテカルロ法のイメージ TD法のイメージ