$30 off During Our Annual Pro Sale. View Details »

[Journal club] Sketch, Ground, and Refine: Top-Down Dense Video Captioning

[Journal club] Sketch, Ground, and Refine: Top-Down Dense Video Captioning

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Sketch, Ground, and Refine: Top-Down Dense Video Captioning Chaorui Deng1,3,

    Shizhe Chen2, Da Chen3, Yuan He3, Qi Wu1 1University of Adelaide, 2INRIA, 3Alibaba Group CVPR 2021 杉浦孔明研究室 神原 元就 Deng, C., Chen, S., Chen, D., He, Y., & Wu, Q. (2021). Sketch, ground, and refine: Top-down dense video captioning. In CVPR(pp. 234-243).
  2. 背景:action recognitionの性能はeventの扱いに依存 3 The Power of PowerPoint - thepopp.com actionのクラスを最初に固定

    • 既存のaction recognition手法 細かいactionには対応不能 • Dense Video Captioning (DVC) 主要なイベントを発見,一貫したス トーリーで説明 どちらも間違ってはいない=定義が異なる モデルには判別不能,生成文 の品質低下
  3. 既存研究 4 The Power of PowerPoint - thepopp.com [Zhou+ CVPR18]

    • CNN及びtransformerを用いたend-to-end DVCモデル • “detect-then-describe”フレームワーク • イベントを一通り検出しそれぞれに キャプションを付けるため一貫性がない [Mun+ CVPR19] • RNNを用いたDVCモデル • 時系列順にイベントを検出,並べた後に キャプションを生成 • イベントの定義の差異が生成文の品質 に影響
  4. 対象タスク:Dense Video Captioning (DVC) 5 The Power of PowerPoint -

    thepopp.com • 入力 • 出力 • 動画内のイベントを特定,キャプション を付与しつつタイムスタンプを作成 [Krishna+ ICCV17] 動画 𝑉 {𝑆𝑖 , 𝐸𝑖 }𝑖=1 𝑛 𝑆𝑖 : 複数文, 𝐸𝑖 : セグメント,𝑛: イベント数
  5. 提案手法:Sketch, Ground, and Refine (SGR) 6 The Power of PowerPoint

    - thepopp.com Sketching Grounding Refining パラグラフの生成 セグメントの生成 パラグラフの更新
  6. Contextual Video Encoder 7 The Power of PowerPoint - thepopp.com

    • 動画のエンコードを行う • 入力: 𝑉 • 出力: 𝑯𝑣 ∈ ℝ𝑇×𝑑𝑚 T: 事前に分割したスニペット数, 𝑑𝑚: 隠れ層のサイズ 1. CNNを用いて特徴量𝑭𝑣 ∈ ℝ𝑇×𝑑𝑓を抽出 2. transformer encoding layerを用いて𝑯𝑣 (𝑙) ∈ ℝ𝑇×𝑑𝑚を計算 𝑯𝑣 (𝑙+1) = 𝑓𝐹𝐹𝑁 (𝑯𝑣 𝑙 + 𝑓𝑀𝐻𝐴 (𝑯𝑣 𝑙 , 𝑯𝑣 𝑙 , 𝑯𝑣 (𝑙)))
  7. Sketching: Paragraph Decoder 8 The Power of PowerPoint - thepopp.com

    • 動画から抽出した特徴量より文を生成 • 入力: 𝑯𝑣 • 出力: 𝑯𝑝 ∈ ℝ𝐿𝑝×𝑑𝑚, p(𝑤𝑗 |𝑤<𝑗 , 𝑯𝑣 ) 𝐿𝑝: 生成されるパラグラフの長さ 𝑯𝑝𝑠 (𝑙) = 𝑯𝑝 𝑙 + 𝑓𝑀𝐻𝐴 (𝑯𝑝 𝑙 , 𝑯𝑝 𝑙 , 𝑯𝑝 (𝑙))) 𝑯𝑝𝑐 (𝑙) = 𝑯𝑝𝑠 𝑙 + 𝑓𝑀𝐻𝐴 (𝑯𝑝𝑠 𝑙 , 𝑯𝑣 , 𝑯𝑣 )) 𝑯𝑝𝑐 (𝑙+1) = 𝑯𝑝𝑐 𝑙 + 𝑓𝐹𝐹𝑁 (𝑯𝑝𝑐 𝑙 )) 1. transformer decoder layerを用いて𝑯𝑝 (𝑙)を計算 2. 各単語の生成確率を計算 p 𝑤𝑗 𝑤<𝑗 , 𝑯𝑣 = 𝑓𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (𝑯𝑝,𝑗 𝑾𝑒𝑚𝑏 ) 訓練時はteacher forcing 𝐿𝑠 = ෍ 𝑤𝑗 ∗∈𝑃∗ − log 𝑝(𝑤𝑗 ∗|𝑤<𝑗 ∗ , 𝑯𝑣 )
  8. Grounding: Temporal Sentence Localiser 9 The Power of PowerPoint -

    thepopp.com • 各文からセグメントのタイムスタンプを予測 • 入力: 𝑯𝑣 , 𝑯𝒔𝒊 ∈ ℝ𝐿𝑠𝑖 ×𝑑𝑚 𝐿𝑠𝑖 : 文𝑆𝑖 の長さ(𝑯𝑝 の一部) • 出力: 𝑐𝑠 , 𝑐𝑐 , 𝑐𝑒 ∈ ℝ𝑇 1. transformerにおける注意機構を用いて𝑯𝑣 (𝑠𝑖)を計算 𝑯𝑣 (𝑠𝑖) = 𝑯𝑣 + 𝑓𝐴𝑇𝑇 (𝑯𝑣 , 𝑯𝒔𝒊 , 𝑯𝒔𝒊 )) 2. 1-D Conv層を適用し ෩ 𝐻𝑣 (𝑠𝑖)とした後,線形分類器により確信度 スコア𝑐𝑠 , 𝑐𝑐 , 𝑐𝑒 を予測 𝑐𝑥 = 𝑓𝑠𝑜𝑓𝑡𝑚𝑎𝑥 (෩ 𝑯𝑣 𝑠𝑖 𝑾𝒙 )) 𝑥 ∈ {𝑠, 𝑐, 𝑒} i番目のセグメント𝐸𝑖 に対する確信度は𝑐𝑠,𝑙𝑠 + 𝑐𝑐,𝑙𝑐 + 𝑐𝑒,𝑙𝑒 確信度が高いものを用いて𝐸𝑖 = [𝑡𝑖 𝑠, 𝑡𝑖 𝑒]とする
  9. Grounding: Temporal Sentence Localiser 10 The Power of PowerPoint -

    thepopp.com 損失関数: 重み付きロジスティック回帰 𝐿𝑔 = 1 𝑇 σ 𝑥∈{𝑠,𝑐,𝑒} σ𝑡=1 𝑇 (𝛼𝑥 +𝑐𝑥,𝑡 ∗ log 𝑐𝑥,𝑡 + 𝛼𝑥 −(1 − 𝑐𝑥,𝑡 ∗ ) log 1 − 𝑐𝑥,𝑡 ) 正例 負例 ここで,Ground Truthは以下のように定義 𝐸𝑖 ∗ = [𝑡𝑖 𝑠, 𝑡𝑖 𝑒] 𝑑𝑖 = 𝑡𝑖 𝑒 − 𝑡𝑖 𝑠 𝑡𝑖 𝑠 𝑡𝑖 𝑒 𝑡𝑖 𝑐 𝑟𝑖 𝑠 𝑟𝑖 𝑐 𝑟𝑖 𝑒 𝛼1 𝑑𝑖 𝛼1 𝑑𝑖 𝛼2 𝑑𝑖 τ𝑣 • 全てのイベントについて𝑟𝑡 = [𝜏𝑣 𝑡 − 0.5 , τ𝑣 (𝑡 + 0.5)], 𝑟𝑖 𝑠, 𝑟𝑖 𝑐, 𝑟𝑖 𝑒を算出 • 𝑐𝑥,𝑡 ∗ = 1(Intersection of Area (IoA) > θ) 𝑐𝑥,𝑡 ∗ = 0 (else)
  10. Refining: Fine-grained Sentence Decoder 11 The Power of PowerPoint -

    thepopp.com • 生成文を,切り抜いた動画の特徴量を用いて更新 • 入力: 𝑯𝑣 , 𝑯𝒔𝒊 , 𝐸𝑖 • 出力: 𝑆𝑖 𝑟 1. transformer-based decoderを用いて𝑯𝑟 (𝑙,∗)を計算 𝑯𝑟 (𝑙,𝑐) = 𝑯𝑟 (𝑙,𝑐) + 𝑓𝑀𝐻𝐴 (𝑯𝑟 𝑙,𝑠 , 𝑯𝒔𝒊 , 𝑯𝒔𝒊 )) + 𝑓𝑀𝐻𝐴 (𝑯𝑟 𝑙,𝑠 , 𝑯𝒆𝒊 , 𝑯𝒆𝒊 )) 𝑯𝒆𝒊 ∈ ℝ𝑇𝑒𝑖 ×𝑑𝑚: 𝐸𝑖 に基づいて切り抜いた動画の特徴量 𝑇𝑒𝑖 : 𝐸𝑖 に含まれるスニペットの数
  11. Refining: Fine-grained Sentence Decoder 12 The Power of PowerPoint -

    thepopp.com 2段階の訓練 1. Teacher forcingを用いた訓練 𝐿𝑠 = ෍ 𝑤𝑗 ∗∈𝑃∗ − log 𝑝(𝑤𝑗 ∗|𝑤<𝑗 ∗ , 𝑯𝑣 ) 2. 強化学習 負の報酬𝐿𝑟 𝑆 𝑖 (𝑟) = −𝔼𝑆𝑖 𝑟~𝜋 [𝑅(𝑆 𝑖 (𝑟))]の最小化を考える (R(): METEOR) 報酬の勾配:∇𝐿𝑟 𝑆 𝑖 (𝑟) = −(𝐴𝑠𝑖 + 𝐴𝑝 )∇ log 𝜋(𝑅(𝑆 𝑖 (𝑟)) 𝐴𝑠𝑖 = 𝑅 𝑆 𝑖 (𝑟) − 𝑅 ҧ 𝑆 𝑖 (𝑟) + 𝑅 𝑆 𝑖 (𝑟) − 𝑅(𝑆𝑖 ) 𝐴𝑝 = 𝑅 𝑃(𝑟) − 𝑅 ത 𝑃(𝑟) + 𝑅 𝑃(𝑟) − 𝑅(𝑃) 貪欲解
  12. 定量的結果:タイプの異なる2種類のデータセットでSOTA 13 The Power of PowerPoint - thepopp.com ActivityNet[Krishna+ CVPR17]における結

    果(backborn: C3D) 2つのデータセットにおける結果 (backborn: TSN[Xiong+ 16]) • 主要尺度であるMETEORにおいて提案手法 が上回る • キャプションの更新を行うことでw/o Refiningよりも性能向上 • 提案手法はいずれのデータセットにおいても高性能 • SODA: キャプション数に敏感だが,結果より,正し くセグメントに分割できている https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123510511.pdf
  13. Ablation studies: 新規モジュールの有効性を確認 14 The Power of PowerPoint - thepopp.com

    ActivityNet (backborn: TSN)における,METEORのスコアを示す 強化学習の有効性を確認 2種類のattentionはいずれも有効
  14. 定性的結果 15 The Power of PowerPoint - thepopp.com 提案手法はRefiningモジュールがない場合よりもGTに近いセグメント及びキャプション生成 に成功

  15. まとめ 16 The Power of PowerPoint - thepopp.com • 背景

    Video Dense Captioning (VDC) において,イベント抽出→キャプション生成という手法では性能 に限界があった • 提案手法 生成したキャプションからセグメントのタイムスタンプを作成,キャプションをさらに精錬させ る手法,Sketch, Ground, and Refine (SGR)を提案 • 結果 主要尺度において既存手法を上回ったほか,セグメントのタイムスタンプについても正確性が向 上した