Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI22]Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks

[JSAI22]Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 関連研究: 多くの動画説明文生成モデルは適切な将来イベントの説明が困難 2 タスク 手法 概要 動画キャプション 生成 MART [Lei+,

    ACL20] Memory Updaterモジュールにより 過去の動画情報を利用 VideoBERT [Sun+, ICCV19] BERTを基とした,動画についての大 規模事前訓練モデル Future captioning [Hosseinzadeh+ WACV21] 時刻tまでの動画から時刻t+1におけ るキャプションを生成するfuture captioningを提案 [Mori+ IEEE IV21] 自動運転動画におけるfuture captioning VideoBERT [Sun+, ICCV19]
  2. MART [Lei+, ACL20]: Memory Updaterモジュールによる過去情報利用 3 • 時刻t-1までのmemory,時刻tの情報か らmemoryを更新するMemory Updater

    モジュールを利用 • 視覚的情報及び言語情報を同時に用いる 注意機構 • 視覚的情報と言語情報のモデル化が不足
  3. 関連研究: 多くの動画説明文生成モデルは適切な将来イベントの説明が困難 4 タスク 手法 概要 動画キャプション 生成 MART [Lei+

    ACL20] Memory Updaterモジュールにより 過去の動画情報を利用 VideoBERT [Sun+ ICCV19] BERTを基とした,動画についての大 規模事前訓練モデル Future captioning [Hosseinzadeh+, WACV21] 時刻tまでの動画から時刻t+kにおけ るキャプションを生成 (future captioning) [Mori+, IEEE IV21] 自動運転動画におけるfuture captioning Output: “the athlete lifts the weight again after a few advice” Input: 𝐸𝑡 [Hosseinzadeh+ WACV21]
  4. Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 6

    新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえ キャプションを生成
  5. Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 7

    Relational Self-Attention (RSA) エンコーダ • RSA [Kim+, NeurIPS21] を 用いた注意機構 • イベント間の関係性を抽出 新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえ キャプションを生成
  6. Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 8

    Transformerデコーダ • Query: RSA Encoderの出力 • Key, Value: Transformer Encoderの出力 新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえ キャプションを生成
  7. Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 10 • イベント間の関係性に関する特徴量を抽出 • 注意機構に,Relational

    Self-Attention [Kim+, NeurIPS21]を利用 𝒒𝒓 = 𝒛𝒕 ∈ ℝ𝒅𝒓𝒔𝒂 𝑲𝒓 = 𝑽𝒓 = 𝒁𝒕−𝒌:𝒕+𝟏 ∈ ℝ(𝒌+𝟐)×𝒅𝒓𝒔𝒂 入力𝒙を線形変換することにより獲得 𝒁𝒕−𝒌:𝒕+𝟏 = {𝒛𝒕−𝒌 , … , 𝒛𝒕+𝟏 }
  8. Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 11 • イベント間の関係性に関する特徴量を抽出 • 注意機構に,Relational

    Self-Attention [Kim+, NeurIPS21]を利用 𝝋 𝝋𝑝 = 𝑾𝒑 𝒒𝒓 𝑸𝑟′ = {𝒒𝒓 ; … ; 𝒒𝒓 } 𝝋ℎ = 𝑾𝒉 𝑓flatten (𝑸𝑟′ ⨀𝑲𝒓 )} 𝝋ℎ 𝝋𝑝
  9. Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 12 • イベント間の関係性に関する特徴量を抽出 • 注意機構に,Relational

    Self-Attention [Kim+, NeurIPS21]を利用 𝝋 Valueについて 自己相関を計算 𝝋ℎ 𝝋𝑝 𝚽𝑔 = 𝑽𝒓 + 𝑾𝒈 𝑽𝒓 T𝑽𝒓 𝚽𝑔 𝝋 = (𝝋𝑝 + 𝝋ℎ )T𝚽𝑔
  10. Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 13 • イベント間の関係性に関する特徴量を抽出 • 注意機構に,Relational

    Self-Attention [Kim+, NeurIPS21]を利用 𝒉nr = {𝒛𝒕−𝒌 , … , 𝒛𝒕−𝟏 , 𝝋, 𝒛𝒕+𝟏 } 出力𝒉𝐍𝐫 はTransformerデコーダでqueryに (𝑛𝑟 = 1, … , 𝑁𝑟 ) 𝒉nr RSA𝝋で𝒛𝒕 を置換
  11. 損失関数:自己回帰的な生成のためのペナルティ項を導入 14 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

    :重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘
  12. 損失関数:自己回帰的な生成のためのペナルティ項を導入 15 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

    :重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 交差エントロピー誤差を利用 • 正解文𝒚𝑡+1 及び生成文ෝ 𝒚𝑡+1 との間の損失
  13. 損失関数:自己回帰的な生成のためのペナルティ項を導入 16 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

    :重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 • CLIP Loss [Radford+, PMLR21] 正例(時刻tの動画特徴量, 時刻t+kの キャプション特徴量)の類似度を上げる
  14. 損失関数:自己回帰的な生成のためのペナルティ項を導入 17 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

    :重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 • initial word penalty 1単語目が誤りであることに対しての ペナルティ ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 = 𝛾iwp ℒce 𝒚𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝛾iwp: 各単語の出現回数の逆比
  15. 損失関数:自己回帰的な生成のためのペナルティ項を導入 18 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

    :重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 平均二乗誤差を利用 • 𝒙𝑡+𝑘 についての予測損失
  16. 実験設定 19 YouCookⅡ[Zhou+, AAAI18] データセット BILA-caption データセット “The rabbit figurine

    falls off the shelf because it is pushed away by the robot” • 生活支援ロボットによる物体配置タスクにお ける,危険性についての説明文が付与 • 計1000サンプル • 89のレシピ,2K本の動画 • 調理ステップごとに分割,説明文が付与 • 計12Kサンプル “Grill the tomatoes in a pan and then put them on a plate”
  17. BILA-captionデータセットにおける定量的結果:ベースラインを上回る性能 20 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+,

    NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ablation study Ours w/o iwp
  18. BILA-captionデータセットにおける定量的結果:ベースラインを上回る性能 21 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+,

    NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study 各尺度でベースライン手法を上回る MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp
  19. YouCook2データセットにおける定量的結果:同様に多くの評価尺度で上回る 22 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 •

    w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp
  20. YouCook2データセットにおける定量的結果:同様に多くの評価尺度で上回る 23 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 •

    w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study 同様に上回る MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp
  21. 定性的結果:将来イベントについて適切に予測 24 Reference Robot hits the camera from above because

    robot tried to put the white bottle where it is Baseline Robot hits a black teapot because robot tried to put a round white bottle Ours Robot hits the camera hard because robot tried to put a white jar  ☺ 衝突する対象について適切に記述 t-1 t
  22. 定性的結果:将来イベントについて適切に予測 25 Reference Rub flour onto the chicken dip it

    in egg and coat with breadcrumbs Baseline Coat the chicken in the flour Ours Coat the chicken with flour and bread crumbs  ☺ イベントについて過不足なく記述 t-2 t-1 t t+1
  23. 定性的結果:衝突に関連する物体の記述に失敗 26 Reference Robot hits various things in the center

    because robot tried to put a white jar Baseline Robot hits the white bottle in the center hard because there was it in the robot’s orbit Ours The white jar is flipped because robot tried to put it on a teacup   衝突したのはカメラ・緑の缶 t t+1
  24. 定性的結果:生成するべきイベントを誤っている例 27 Reference Place chicken on a plate or tray

    and season generously with mixed spices Baseline Cut the chicken into small pieces Ours Place the chicken pieces in a bowl   時刻tについての記述となっている t-1 t t+1
  25. エラー分析:イベントに出現する物体についての記述が未だに不足 28 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46

    SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち,100文をランダムに選択しエラーについて分析
  26. エラー分析:イベントに出現する物体についての記述が未だに不足 29 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46

    SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち,100文をランダムに選択しエラーについて分析 NE及びSEに分類される誤りが多い
  27. エラー分析:イベントに出現する物体についての記述が未だに不足 30 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46

    SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち,100文をランダムに選択しエラーについて分析 NE及びSEに分類される誤りが多い 名詞に関する記述誤りが多い 動画の埋め込みを変更 物体検出モデルと組み合わせ 改善案
  28. まとめ 31 ✓ 日常タスクの実行に伴う将来の危険性を予測し,キャプションを生成する future captioningタスク ✓ 過去のイベント間の関係性を用いる説明文生成モデル,Relational Future Captioning

    Model for Explaining Likely Collisions (RFCM)を提案 ✓ 効果的な過去のイベント間の関係性に関する表現を生成する,Relational Self-Attention エンコーダを利用 ✓ future captioningタスクにおいて既存手法を上回る性能を確認