[Journal club] Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning

慶應義塾大学杉浦孔明研究室是方諒介 Iterative Shrinking for Referring Expression Grounding Using
Deep Reinforcement Learning Mingjie Sun1,2, Jimin Xiao1, Eng Gee Lim1 (1Xi’an Jiaotong-Liverpool University, 2University of Liverpool) CVPR 2021 Sun, Mingjie, Jimin Xiao, and Eng Gee Lim. "Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning." CVPR 2021.

概要背景 ✓ Referring Expression Grounding (REG) における、proposal-freeな手法の需要提案 ✓
参照物体との関係を考慮したIterative Shrinking ✓ REGに深層強化学習を初めて導入結果 ✓ RefCOCOgにおいて、SOTAを4.32%更新 ✓ 参照表現の解釈過程を可視化 2

背景：REGタスクにおけるproposal-freeな手法の需要 ◼ REG：参照表現を含むクエリ文の対象物体領域を特定 ◼ 事前に候補領域を取得して検索的に解く手法欠点：正確な物体検出のために大量の学習データが必要改善案：既存の物体検出器に頼らない手法 3 query: “second
person from the left” 候補領域提案のイメージ

関連研究：参照物体の理解に限界・解釈過程が不明瞭 ◼ proposal-freeな手法：特徴点のマッチングが主流 ◼ 欠点 ✓ 対象・参照物体を両方含む特徴点の欠落 ✓ 判断理由が分からずエラー分析が困難 4
Model Detail RCCF [Liao+ CVPR20] ・クエリ文とimage feature mapとの類似度を計算・最も類似度が高い座標を対象物体の中心とみなす FAOAVG [Yang+ ICCV19] ・画像特徴と言語特徴を融合したmulti-modal feature mapを作成・YOLOv3 [Redmon+ 18] と同様、各点が背景か物体か分類 query: “the orange cat above the shelf”

提案手法：ISREG (Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement
Learning) ◼ 深層強化学習を用いたIterative Shrinkingによりproposal-freeを実現 ◼ Markov Decision Process (MDP) [Jaakkola+ NeurIPS94] で定式化 ◼ 領域縮小の繰り返しにより対象物体領域を決定 ◼ クエリ文の解釈過程を可視化 ◼ 「対象物体」↔「参照物体」の関係性を理解 5 query: “the orange cat above the shelf”

Agentの状態：視覚・言語・空間特徴の3要素から構成 ◼ 視覚・言語・空間特徴をconcat ◼ MDPではマルコフ性を仮定 ◼ 「次の状態」は、「現在の状態」と「行動」だけに依存（＝過去は無関係） 6 𝑠𝑖 𝑐
= 𝑓𝑝𝑖 𝑣𝑐 ⊕ 𝑓 𝑞 𝑙 ⊕ 𝑓𝑝𝑖 𝑠

FPN： ① up-sampling ② average-pooling 視覚特徴：スケールの異なる3つの特徴を獲得 ◼ ResNet [He+ CVPR16]
及び Feature Pyramid Network (FPN) [Lin+ CVPR17] ◼ 小さな物体の検出に有効 7 𝑓𝑝𝑖 ෦ 𝑣1：[28 × 28 × 512] 𝑓𝑝𝑖 ෦ 𝑣2：[14 × 14 × 1024] 𝑓𝑝𝑖 ෦ 𝑣3：[7 × 7 × 2048] 𝑓𝑝𝑖 𝑣1 𝑓𝑝𝑖 𝑣2 𝑓𝑝𝑖 𝑣3 ResNetの途中層同一 (𝐷𝑣) 次元の視覚特徴

言語特徴 (1/2)：対象・参照物体を区別する情報を抽出 ◼ クエリ文を三つ組 (target, reference, discriminative) の集合に分割 ◼ Stanford
CoreNLP [Chen+ EMNLP14] による構文解析 ① target：対象物体 ② reference：参照物体 ③ discriminative：両者の相違点や関係性 8 例：1つのクエリ文を5つの三つ組に分割

言語特徴 (2/2)：単語をベクトル表現で埋め込み ◼ GloVe [Pennington+ EMNLP14] により各単語をベクトルで表現 9 𝑓𝑡𝑘 𝑙
= 𝑓 𝑡𝑘 𝑡 𝑙 ⊕ 𝑓 𝑡𝑘 𝑟 𝑙 ⊕ 𝑓 𝑡𝑘 𝑑 𝑙 𝑓𝑞 𝑙 = 𝑓𝑡1 𝑙 ⊕ 𝑓𝑡2 𝑙 ⊕ ⋯ ⊕ 𝑓𝑡𝑀 𝑙 例：1つのクエリ文を5つの三つ組に分割 ① 組内 (target, reference, discriminative) でconcat ② 組同士（合計 𝑀(= 2) 組）をconcat

空間特徴：矩形領域の相対位置・面積を埋め込み 10 𝑓𝑝𝑖 𝑠 = 𝑥0 𝑊 , 𝑦0 𝐻
, 𝑥1 𝑊 , 𝑦1 𝐻 , 𝑤 ⋅ ℎ 𝑊 ⋅ 𝐻 拡大 𝑝𝑖 ：𝑖 回目の縮小時点での矩形領域 ※ 初期値 𝑝1 は画像全体

Actor：方策 𝜋(𝑠, 𝑎) に基づき行動選択 ◼ 5択から選択 ◼ 𝑎1, 𝑎2, 𝑎3,
𝑎4：4方向の縮小 ◼ 𝑎5：終了 ◼ 縮小幅は領域サイズ [𝑥0 , 𝑦0 , 𝑥1 , 𝑦1 ] で可変 ◼ 目的：序盤は大幅、終盤は小幅 11 ො 𝑦0 = 𝑦0 + 𝛼 𝑦1 − 𝑦0 , if 𝑎𝑖 = 𝑎1 ො 𝑦1 = 𝑦1 − 𝛼 𝑦1 − 𝑦0 , if 𝑎𝑖 = 𝑎2 ො 𝑥0 = 𝑥0 + 𝛼 𝑥1 − 𝑥0 , if 𝑎𝑖 = 𝑎3 ො 𝑥1 = 𝑥1 − 𝛼 𝑥1 − 𝑥0 , if 𝑎𝑖 = 𝑎4 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5

Critic：報酬 𝑟𝑖 に基づき行動評価 ◼ ground-truthとのIoUが大きいほど高報酬 ◼ ただし、前回より改善していない限り0 ◼ 推論時はActorのみ動作 12
𝑟𝑖 = ቐ 0 𝐼𝑜𝑈𝑖 < 0.3 or Δ𝐼𝑜𝑈 ≤ 0 1 0.3 ≤ 𝐼𝑜𝑈𝑖 < 0.5 and 0 < Δ𝐼𝑜𝑈 10 0.5 ≤ 𝐼𝑜𝑈𝑖 and 0 < Δ𝐼𝑜𝑈 ∆𝐼𝑜𝑈 = 𝐼𝑜𝑈𝑖 − 𝐼𝑜𝑈𝑖−1 前回との差分報酬

Actor-Critic [Mnih+ ICML16]：Actor, Criticの順に交互に学習 ◼ Actor：TD誤差 𝛿𝑖 により、方策 𝜋(𝑠, 𝑎)
を学習 ◼ Policy-Based：状態から直接最適な行動を予測 ◼ Critic：TD誤差 𝛿𝑖 により、状態価値関数 𝑉(𝑠)（＝収益の期待値）を学習 ◼ Value-Based：状態価値関数をモデル化 13 𝜃 = 𝜃′ + 𝑙𝑎 ∇ log 𝜋𝜃′ 𝑠𝑖 , 𝑎𝑖 𝐴(𝑠𝑖 , 𝑎𝑖 ) 𝐴 𝑠𝑖 , 𝑎𝑖 = 𝛿𝑖 = 𝑟𝑖 + 𝛾𝑉𝑤′ 𝑠𝑖+1 − 𝑉𝑤′ (𝑠𝑖 ) 𝑤 = 𝑤′ + 𝑙𝑐 𝛿𝑖 ∇𝑤′ 𝑉𝑤′ (𝑠𝑖 ) 𝑙𝑎 , 𝑙𝑐 ：学習率 𝛾：割引率

定量的結果：参照物体の多いデータセットで特に有効 ◼ PF：proposal-free ◼ 考察 ✓ クエリ文がより長く複雑で参照物体の多いRefCOCOgにおいて、SOTAを4.32%更新 ✓ シンプルなクエリ文が多いRefCOCOでは不利 14

定性的結果：解釈過程の可視化に成功した一方、課題も ◼ 参照表現から解釈可能な縮小過程 ◼ 同じ服を着ており、些細な顔の差異からの識別に失敗原因1：シンプルなクエリ文原因2：学習データ不足 15 query: “boy”
query: “closest kid in blue” [kid, kid, closest] [kid, kid, blue] [kid, kid, closest] [kid, kid, blue] [kid, kid, closest] [kid, kid, blue] [kid, kid, closest] [kid, kid, blue]

まとめ 16 背景 ✓ REGにおける、proposal-freeな手法の需要提案 ✓ 参照物体との関係を考慮したIterative Shrinking ✓
REGに深層強化学習を初めて導入結果 ✓ RefCOCOgにおいて、SOTAを4.32%更新 ✓ 参照表現の解釈過程を可視化

Appendix：Ablation Study ◼ 考察 ✓ 三つ組 (triad) の代わりに BERT [Devlin+
18] による特徴抽出を用いると、9.88%低下 ✓ 可変縮小幅を固定長 (𝛼𝐻 or 𝛼𝑊) にすると、30.59%低下 ✓ 強化学習を教師あり学習で代替すると、8.69%低下 17

Appendix：Temporal Difference (TD) 法 ◼ 各行動ごとに状態価値関数 𝑉(𝑠) を更新する手法 ◼ 収益確定前の更新により、学習を高速化
◼ モンテカルロ法における 𝑉(𝑠𝑖 ) の目標を変更 ◼ 収益 𝐺𝑖 = 𝑟𝑖 + 𝛾𝐺𝑖+1 ではなく、TDターゲット 𝑟𝑖 + 𝛾𝑉(𝑠𝑖+1 ) 18 https://shirakonotempura.hatenablog.com/entry/2019/02/02/094140 モンテカルロ法のイメージ TD法のイメージ

[Journal club] Iterative Shrinking for Referrin...

[Journal club] Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 Iterative Shrinking for Referring Expression Grounding Using

概要背景 ✓ Referring Expression Grounding (REG) における、proposal-freeな手法の需要提案 ✓

関連研究：参照物体の理解に限界・解釈過程が不明瞭 ◼ proposal-freeな手法：特徴点のマッチングが主流 ◼ 欠点 ✓ 対象・参照物体を両方含む特徴点の欠落 ✓ 判断理由が分からずエラー分析が困難 4

提案手法：ISREG (Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement

Agentの状態：視覚・言語・空間特徴の3要素から構成 ◼ 視覚・言語・空間特徴をconcat ◼ MDPではマルコフ性を仮定 ◼ 「次の状態」は、「現在の状態」と「行動」だけに依存（＝過去は無関係） 6 𝑠𝑖 𝑐

FPN： ① up-sampling ② average-pooling 視覚特徴：スケールの異なる3つの特徴を獲得 ◼ ResNet [He+ CVPR16]

言語特徴 (1/2)：対象・参照物体を区別する情報を抽出 ◼ クエリ文を三つ組 (target, reference, discriminative) の集合に分割 ◼ Stanford

言語特徴 (2/2)：単語をベクトル表現で埋め込み ◼ GloVe [Pennington+ EMNLP14] により各単語をベクトルで表現 9 𝑓𝑡𝑘 𝑙

空間特徴：矩形領域の相対位置・面積を埋め込み 10 𝑓𝑝𝑖 𝑠 = 𝑥0 𝑊 , 𝑦0 𝐻

Actor：方策 𝜋(𝑠, 𝑎) に基づき行動選択 ◼ 5択から選択 ◼ 𝑎1, 𝑎2, 𝑎3,

Critic：報酬 𝑟𝑖 に基づき行動評価 ◼ ground-truthとのIoUが大きいほど高報酬 ◼ ただし、前回より改善していない限り0 ◼ 推論時はActorのみ動作 12

Actor-Critic [Mnih+ ICML16]：Actor, Criticの順に交互に学習 ◼ Actor：TD誤差 𝛿𝑖 により、方策 𝜋(𝑠, 𝑎)

定量的結果：参照物体の多いデータセットで特に有効 ◼ PF：proposal-free ◼ 考察 ✓ クエリ文がより長く複雑で参照物体の多いRefCOCOgにおいて、SOTAを4.32%更新 ✓ シンプルなクエリ文が多いRefCOCOでは不利 14

定性的結果：解釈過程の可視化に成功した一方、課題も ◼ 参照表現から解釈可能な縮小過程 ◼ 同じ服を着ており、些細な顔の差異からの識別に失敗原因1：シンプルなクエリ文原因2：学習データ不足 15 query: “boy”

まとめ 16 背景 ✓ REGにおける、proposal-freeな手法の需要提案 ✓ 参照物体との関係を考慮したIterative Shrinking ✓

Appendix：Ablation Study ◼ 考察 ✓ 三つ組 (triad) の代わりに BERT [Devlin+

Appendix：Temporal Difference (TD) 法 ◼ 各行動ごとに状態価値関数 𝑉(𝑠) を更新する手法 ◼ 収益確定前の更新により、学習を高速化