[JSAI22]Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks

Slide 1

Slide 1 text

神原元就，杉浦孔明 (慶應義塾大学) 日常タスクにおける将来イベントのクロスモーダル説明文生成

Slide 2

Slide 2 text

背景：未来の状況の予測，説明能力は安全な運用上重要 1 要支援者の増加に対して，生活支援ロボットは有望な解決策の一つ実用化には動作に伴う危険予測能力が重要例）連鎖的な衝突による物体の落下自然言語フィードバックにより • ユーザへの注意喚起 • 安全性・説明性の向上

Slide 3

Slide 3 text

関連研究：多くの動画説明文生成モデルは適切な将来イベントの説明が困難 2 タスク手法概要動画キャプション生成 MART [Lei+, ACL20] Memory Updaterモジュールにより過去の動画情報を利用 VideoBERT [Sun+, ICCV19] BERTを基とした，動画についての大規模事前訓練モデル Future captioning [Hosseinzadeh+ WACV21] 時刻tまでの動画から時刻t+1におけるキャプションを生成するfuture captioningを提案 [Mori+ IEEE IV21] 自動運転動画におけるfuture captioning VideoBERT [Sun+, ICCV19]

Slide 4

Slide 4 text

MART [Lei+, ACL20]： Memory Updaterモジュールによる過去情報利用 3 • 時刻t-1までのmemory，時刻tの情報からmemoryを更新するMemory Updater モジュールを利用 • 視覚的情報及び言語情報を同時に用いる注意機構 • 視覚的情報と言語情報のモデル化が不足

Slide 5

Slide 5 text

関連研究：多くの動画説明文生成モデルは適切な将来イベントの説明が困難 4 タスク手法概要動画キャプション生成 MART [Lei+ ACL20] Memory Updaterモジュールにより過去の動画情報を利用 VideoBERT [Sun+ ICCV19] BERTを基とした，動画についての大規模事前訓練モデル Future captioning [Hosseinzadeh+, WACV21] 時刻tまでの動画から時刻t+kにおけるキャプションを生成 (future captioning) [Mori+, IEEE IV21] 自動運転動画におけるfuture captioning Output: “the athlete lifts the weight again after a few advice” Input: 𝐸𝑡 [Hosseinzadeh+ WACV21]

Slide 6

Slide 6 text

問題設定：日常タスクにおけるFuture Captioning 5 対象タスク：Future captioning 時刻tまでの動画から，時刻t+kにおけるイベントについての説明文を生成入力出力時刻tまでのクリップ時刻t+kにおけるイベントの説明文 “The hand contacting the yellow duck toy causes the toy to further contact the camera next to it, causing the camera to fall”

Slide 7

Slide 7 text

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 6 新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえキャプションを生成

Slide 8

Slide 8 text

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 7 Relational Self-Attention (RSA) エンコーダ • RSA [Kim+, NeurIPS21] を用いた注意機構 • イベント間の関係性を抽出新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえキャプションを生成

Slide 9

Slide 9 text

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 8 Transformerデコーダ • Query: RSA Encoderの出力 • Key, Value: Transformer Encoderの出力新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえキャプションを生成

Slide 10

Slide 10 text

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 9 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational Self-Attention [Kim+, NeurIPS21]を利用

Slide 11

Slide 11 text

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 10 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational Self-Attention [Kim+, NeurIPS21]を利用 𝒒𝒓 = 𝒛𝒕 ∈ ℝ𝒅𝒓𝒔𝒂 𝑲𝒓 = 𝑽𝒓 = 𝒁𝒕−𝒌:𝒕+𝟏 ∈ ℝ(𝒌+𝟐)×𝒅𝒓𝒔𝒂 入力𝒙を線形変換することにより獲得 𝒁𝒕−𝒌:𝒕+𝟏 = {𝒛𝒕−𝒌 , … , 𝒛𝒕+𝟏 }

Slide 12

Slide 12 text

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 11 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational Self-Attention [Kim+, NeurIPS21]を利用 𝝋 𝝋𝑝 = 𝑾𝒑 𝒒𝒓 𝑸𝑟′ = {𝒒𝒓 ; … ; 𝒒𝒓 } 𝝋ℎ = 𝑾𝒉 𝑓flatten (𝑸𝑟′ ⨀𝑲𝒓 )} 𝝋ℎ 𝝋𝑝

Slide 13

Slide 13 text

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 12 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational Self-Attention [Kim+, NeurIPS21]を利用 𝝋 Valueについて自己相関を計算 𝝋ℎ 𝝋𝑝 𝚽𝑔 = 𝑽𝒓 + 𝑾𝒈 𝑽𝒓 T𝑽𝒓 𝚽𝑔 𝝋 = (𝝋𝑝 + 𝝋ℎ )T𝚽𝑔

Slide 14

Slide 14 text

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 13 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational Self-Attention [Kim+, NeurIPS21]を利用 𝒉nr = {𝒛𝒕−𝒌 , … , 𝒛𝒕−𝟏 , 𝝋, 𝒛𝒕+𝟏 } 出力𝒉𝐍𝐫 はTransformerデコーダでqueryに (𝑛𝑟 = 1, … , 𝑁𝑟 ) 𝒉nr RSA𝝋で𝒛𝒕 を置換

Slide 15

Slide 15 text

損失関数：自己回帰的な生成のためのペナルティ項を導入 14 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗ ：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘

Slide 16

Slide 16 text

損失関数：自己回帰的な生成のためのペナルティ項を導入 15 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗ ：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 交差エントロピー誤差を利用 • 正解文𝒚𝑡+1 及び生成文ෝ 𝒚𝑡+1 との間の損失

Slide 17

Slide 17 text

損失関数：自己回帰的な生成のためのペナルティ項を導入 16 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗ ：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 • CLIP Loss [Radford+, PMLR21] 正例(時刻tの動画特徴量, 時刻t+kのキャプション特徴量)の類似度を上げる

Slide 18

Slide 18 text

損失関数：自己回帰的な生成のためのペナルティ項を導入 17 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗ ：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 • initial word penalty 1単語目が誤りであることに対してのペナルティ ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 = 𝛾iwp ℒce 𝒚𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝛾iwp: 各単語の出現回数の逆比

Slide 19

Slide 19 text

損失関数：自己回帰的な生成のためのペナルティ項を導入 18 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗ ：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 平均二乗誤差を利用 • 𝒙𝑡+𝑘 についての予測損失

Slide 20

Slide 20 text

実験設定 19 YouCookⅡ[Zhou+, AAAI18] データセット BILA-caption データセット “The rabbit figurine falls off the shelf because it is pushed away by the robot” • 生活支援ロボットによる物体配置タスクにおける，危険性についての説明文が付与 • 計1000サンプル • 89のレシピ，2K本の動画 • 調理ステップごとに分割，説明文が付与 • 計12Kサンプル “Grill the tomatoes in a pan and then put them on a plate”

Slide 21

Slide 21 text

BILA-captionデータセットにおける定量的結果：ベースラインを上回る性能 20 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ablation study Ours w/o iwp

Slide 22

Slide 22 text

BILA-captionデータセットにおける定量的結果：ベースラインを上回る性能 21 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study 各尺度でベースライン手法を上回る MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp

Slide 23

Slide 23 text

YouCook2データセットにおける定量的結果：同様に多くの評価尺度で上回る 22 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp

Slide 24

Slide 24 text

YouCook2データセットにおける定量的結果：同様に多くの評価尺度で上回る 23 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study 同様に上回る MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp

Slide 25

Slide 25 text

定性的結果：将来イベントについて適切に予測 24 Reference Robot hits the camera from above because robot tried to put the white bottle where it is Baseline Robot hits a black teapot because robot tried to put a round white bottle Ours Robot hits the camera hard because robot tried to put a white jar  ☺ 衝突する対象について適切に記述 t-1 t

Slide 26

Slide 26 text

定性的結果：将来イベントについて適切に予測 25 Reference Rub flour onto the chicken dip it in egg and coat with breadcrumbs Baseline Coat the chicken in the flour Ours Coat the chicken with flour and bread crumbs  ☺ イベントについて過不足なく記述 t-2 t-1 t t+1

Slide 27

Slide 27 text

定性的結果：衝突に関連する物体の記述に失敗 26 Reference Robot hits various things in the center because robot tried to put a white jar Baseline Robot hits the white bottle in the center hard because there was it in the robot’s orbit Ours The white jar is flipped because robot tried to put it on a teacup   衝突したのはカメラ・緑の缶 t t+1

Slide 28

Slide 28 text

定性的結果：生成するべきイベントを誤っている例 27 Reference Place chicken on a plate or tray and season generously with mixed spices Baseline Cut the chicken into small pieces Ours Place the chicken pieces in a bowl   時刻tについての記述となっている t-1 t t+1

Slide 29

Slide 29 text

エラー分析：イベントに出現する物体についての記述が未だに不足 28 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46 SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち，100文をランダムに選択しエラーについて分析

Slide 30

Slide 30 text

エラー分析：イベントに出現する物体についての記述が未だに不足 29 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46 SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち，100文をランダムに選択しエラーについて分析 NE及びSEに分類される誤りが多い

Slide 31

Slide 31 text

エラー分析：イベントに出現する物体についての記述が未だに不足 30 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46 SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち，100文をランダムに選択しエラーについて分析 NE及びSEに分類される誤りが多い名詞に関する記述誤りが多い動画の埋め込みを変更物体検出モデルと組み合わせ改善案

Slide 32

Slide 32 text

まとめ 31 ✓ 日常タスクの実行に伴う将来の危険性を予測し，キャプションを生成する future captioningタスク ✓ 過去のイベント間の関係性を用いる説明文生成モデル，Relational Future Captioning Model for Explaining Likely Collisions (RFCM)を提案 ✓ 効果的な過去のイベント間の関係性に関する表現を生成する，Relational Self-Attention エンコーダを利用 ✓ future captioningタスクにおいて既存手法を上回る性能を確認