[Journal club] Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning

Slide 1

Slide 1 text

慶應義塾大学杉浦孔明研究室是方諒介 Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning Mingjie Sun1,2, Jimin Xiao1, Eng Gee Lim1 (1Xi’an Jiaotong-Liverpool University, 2University of Liverpool) CVPR 2021 Sun, Mingjie, Jimin Xiao, and Eng Gee Lim. "Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning." CVPR 2021.

Slide 2

Slide 2 text

概要背景 ✓ Referring Expression Grounding (REG) における、proposal-freeな手法の需要提案 ✓ 参照物体との関係を考慮したIterative Shrinking ✓ REGに深層強化学習を初めて導入結果 ✓ RefCOCOgにおいて、SOTAを4.32%更新 ✓ 参照表現の解釈過程を可視化 2

Slide 3

Slide 3 text

背景：REGタスクにおけるproposal-freeな手法の需要 ◼ REG：参照表現を含むクエリ文の対象物体領域を特定 ◼ 事前に候補領域を取得して検索的に解く手法欠点：正確な物体検出のために大量の学習データが必要改善案：既存の物体検出器に頼らない手法 3 query: “second person from the left” 候補領域提案のイメージ

Slide 4

Slide 4 text

関連研究：参照物体の理解に限界・解釈過程が不明瞭 ◼ proposal-freeな手法：特徴点のマッチングが主流 ◼ 欠点 ✓ 対象・参照物体を両方含む特徴点の欠落 ✓ 判断理由が分からずエラー分析が困難 4 Model Detail RCCF [Liao+ CVPR20] ・クエリ文とimage feature mapとの類似度を計算・最も類似度が高い座標を対象物体の中心とみなす FAOAVG [Yang+ ICCV19] ・画像特徴と言語特徴を融合したmulti-modal feature mapを作成・YOLOv3 [Redmon+ 18] と同様、各点が背景か物体か分類 query: “the orange cat above the shelf”

Slide 5

Slide 5 text

提案手法：ISREG (Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning) ◼ 深層強化学習を用いたIterative Shrinkingによりproposal-freeを実現 ◼ Markov Decision Process (MDP) [Jaakkola+ NeurIPS94] で定式化 ◼ 領域縮小の繰り返しにより対象物体領域を決定 ◼ クエリ文の解釈過程を可視化 ◼ 「対象物体」↔「参照物体」の関係性を理解 5 query: “the orange cat above the shelf”

Slide 6

Slide 6 text

Agentの状態：視覚・言語・空間特徴の3要素から構成 ◼ 視覚・言語・空間特徴をconcat ◼ MDPではマルコフ性を仮定 ◼ 「次の状態」は、「現在の状態」と「行動」だけに依存（＝過去は無関係） 6 𝑠𝑖 𝑐 = 𝑓𝑝𝑖 𝑣𝑐 ⊕ 𝑓 𝑞 𝑙 ⊕ 𝑓𝑝𝑖 𝑠

Slide 7

Slide 7 text

FPN： ① up-sampling ② average-pooling 視覚特徴：スケールの異なる3つの特徴を獲得 ◼ ResNet [He+ CVPR16] 及び Feature Pyramid Network (FPN) [Lin+ CVPR17] ◼ 小さな物体の検出に有効 7 𝑓𝑝𝑖 ෦ 𝑣1：[28 × 28 × 512] 𝑓𝑝𝑖 ෦ 𝑣2：[14 × 14 × 1024] 𝑓𝑝𝑖 ෦ 𝑣3：[7 × 7 × 2048] 𝑓𝑝𝑖 𝑣1 𝑓𝑝𝑖 𝑣2 𝑓𝑝𝑖 𝑣3 ResNetの途中層同一 (𝐷𝑣) 次元の視覚特徴

Slide 8

Slide 8 text

言語特徴 (1/2)：対象・参照物体を区別する情報を抽出 ◼ クエリ文を三つ組 (target, reference, discriminative) の集合に分割 ◼ Stanford CoreNLP [Chen+ EMNLP14] による構文解析 ① target：対象物体 ② reference：参照物体 ③ discriminative：両者の相違点や関係性 8 例：1つのクエリ文を5つの三つ組に分割

Slide 9

Slide 9 text

言語特徴 (2/2)：単語をベクトル表現で埋め込み ◼ GloVe [Pennington+ EMNLP14] により各単語をベクトルで表現 9 𝑓𝑡𝑘 𝑙 = 𝑓 𝑡𝑘 𝑡 𝑙 ⊕ 𝑓 𝑡𝑘 𝑟 𝑙 ⊕ 𝑓 𝑡𝑘 𝑑 𝑙 𝑓𝑞 𝑙 = 𝑓𝑡1 𝑙 ⊕ 𝑓𝑡2 𝑙 ⊕ ⋯ ⊕ 𝑓𝑡𝑀 𝑙 例：1つのクエリ文を5つの三つ組に分割 ① 組内 (target, reference, discriminative) でconcat ② 組同士（合計 𝑀(= 2) 組）をconcat

Slide 10

Slide 10 text

空間特徴：矩形領域の相対位置・面積を埋め込み 10 𝑓𝑝𝑖 𝑠 = 𝑥0 𝑊 , 𝑦0 𝐻 , 𝑥1 𝑊 , 𝑦1 𝐻 , 𝑤 ⋅ ℎ 𝑊 ⋅ 𝐻 拡大 𝑝𝑖 ：𝑖 回目の縮小時点での矩形領域 ※ 初期値 𝑝1 は画像全体

Slide 11

Slide 11 text

Actor：方策 𝜋(𝑠, 𝑎) に基づき行動選択 ◼ 5択から選択 ◼ 𝑎1, 𝑎2, 𝑎3, 𝑎4：4方向の縮小 ◼ 𝑎5：終了 ◼ 縮小幅は領域サイズ [𝑥0 , 𝑦0 , 𝑥1 , 𝑦1 ] で可変 ◼ 目的：序盤は大幅、終盤は小幅 11 ො 𝑦0 = 𝑦0 + 𝛼 𝑦1 − 𝑦0 , if 𝑎𝑖 = 𝑎1 ො 𝑦1 = 𝑦1 − 𝛼 𝑦1 − 𝑦0 , if 𝑎𝑖 = 𝑎2 ො 𝑥0 = 𝑥0 + 𝛼 𝑥1 − 𝑥0 , if 𝑎𝑖 = 𝑎3 ො 𝑥1 = 𝑥1 − 𝛼 𝑥1 − 𝑥0 , if 𝑎𝑖 = 𝑎4 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5

Slide 12

Slide 12 text

Critic：報酬 𝑟𝑖 に基づき行動評価 ◼ ground-truthとのIoUが大きいほど高報酬 ◼ ただし、前回より改善していない限り0 ◼ 推論時はActorのみ動作 12 𝑟𝑖 = ቐ 0 𝐼𝑜𝑈𝑖 < 0.3 or Δ𝐼𝑜𝑈 ≤ 0 1 0.3 ≤ 𝐼𝑜𝑈𝑖 < 0.5 and 0 < Δ𝐼𝑜𝑈 10 0.5 ≤ 𝐼𝑜𝑈𝑖 and 0 < Δ𝐼𝑜𝑈 ∆𝐼𝑜𝑈 = 𝐼𝑜𝑈𝑖 − 𝐼𝑜𝑈𝑖−1 前回との差分報酬

Slide 13

Slide 13 text

Actor-Critic [Mnih+ ICML16]：Actor, Criticの順に交互に学習 ◼ Actor：TD誤差 𝛿𝑖 により、方策 𝜋(𝑠, 𝑎) を学習 ◼ Policy-Based：状態から直接最適な行動を予測 ◼ Critic：TD誤差 𝛿𝑖 により、状態価値関数 𝑉(𝑠)（＝収益の期待値）を学習 ◼ Value-Based：状態価値関数をモデル化 13 𝜃 = 𝜃′ + 𝑙𝑎 ∇ log 𝜋𝜃′ 𝑠𝑖 , 𝑎𝑖 𝐴(𝑠𝑖 , 𝑎𝑖 ) 𝐴 𝑠𝑖 , 𝑎𝑖 = 𝛿𝑖 = 𝑟𝑖 + 𝛾𝑉𝑤′ 𝑠𝑖+1 − 𝑉𝑤′ (𝑠𝑖 ) 𝑤 = 𝑤′ + 𝑙𝑐 𝛿𝑖 ∇𝑤′ 𝑉𝑤′ (𝑠𝑖 ) 𝑙𝑎 , 𝑙𝑐 ：学習率 𝛾：割引率

Slide 14

Slide 14 text

定量的結果：参照物体の多いデータセットで特に有効 ◼ PF：proposal-free ◼ 考察 ✓ クエリ文がより長く複雑で参照物体の多いRefCOCOgにおいて、SOTAを4.32%更新 ✓ シンプルなクエリ文が多いRefCOCOでは不利 14

Slide 15

Slide 15 text

定性的結果：解釈過程の可視化に成功した一方、課題も ◼ 参照表現から解釈可能な縮小過程 ◼ 同じ服を着ており、些細な顔の差異からの識別に失敗原因1：シンプルなクエリ文原因2：学習データ不足 15 query: “boy” query: “closest kid in blue” [kid, kid, closest] [kid, kid, blue] [kid, kid, closest] [kid, kid, blue] [kid, kid, closest] [kid, kid, blue] [kid, kid, closest] [kid, kid, blue]

Slide 16

Slide 16 text

まとめ 16 背景 ✓ REGにおける、proposal-freeな手法の需要提案 ✓ 参照物体との関係を考慮したIterative Shrinking ✓ REGに深層強化学習を初めて導入結果 ✓ RefCOCOgにおいて、SOTAを4.32%更新 ✓ 参照表現の解釈過程を可視化

Slide 17

Slide 17 text

Appendix：Ablation Study ◼ 考察 ✓ 三つ組 (triad) の代わりに BERT [Devlin+ 18] による特徴抽出を用いると、9.88%低下 ✓ 可変縮小幅を固定長 (𝛼𝐻 or 𝛼𝑊) にすると、30.59%低下 ✓ 強化学習を教師あり学習で代替すると、8.69%低下 17

Slide 18

Slide 18 text

Appendix：Temporal Difference (TD) 法 ◼ 各行動ごとに状態価値関数 𝑉(𝑠) を更新する手法 ◼ 収益確定前の更新により、学習を高速化 ◼ モンテカルロ法における 𝑉(𝑠𝑖 ) の目標を変更 ◼ 収益 𝐺𝑖 = 𝑟𝑖 + 𝛾𝐺𝑖+1 ではなく、TDターゲット 𝑟𝑖 + 𝛾𝑉(𝑠𝑖+1 ) 18 https://shirakonotempura.hatenablog.com/entry/2019/02/02/094140 モンテカルロ法のイメージ TD法のイメージ