[JSAI22]Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks

神原元就，杉浦孔明 (慶應義塾大学) 日常タスクにおける将来イベントのクロスモーダル説明文生成

背景：未来の状況の予測，説明能力は安全な運用上重要 1 要支援者の増加に対して，生活支援ロボットは有望な解決策の一つ実用化には動作に伴う危険予測能力が重要例）連鎖的な衝突による物体の落下自然言語フィードバックにより •
ユーザへの注意喚起 • 安全性・説明性の向上

関連研究：多くの動画説明文生成モデルは適切な将来イベントの説明が困難 2 タスク手法概要動画キャプション生成 MART [Lei+,
ACL20] Memory Updaterモジュールにより過去の動画情報を利用 VideoBERT [Sun+, ICCV19] BERTを基とした，動画についての大規模事前訓練モデル Future captioning [Hosseinzadeh+ WACV21] 時刻tまでの動画から時刻t+1におけるキャプションを生成するfuture captioningを提案 [Mori+ IEEE IV21] 自動運転動画におけるfuture captioning VideoBERT [Sun+, ICCV19]

MART [Lei+, ACL20]： Memory Updaterモジュールによる過去情報利用 3 • 時刻t-1までのmemory，時刻tの情報からmemoryを更新するMemory Updater
モジュールを利用 • 視覚的情報及び言語情報を同時に用いる注意機構 • 視覚的情報と言語情報のモデル化が不足

関連研究：多くの動画説明文生成モデルは適切な将来イベントの説明が困難 4 タスク手法概要動画キャプション生成 MART [Lei+
ACL20] Memory Updaterモジュールにより過去の動画情報を利用 VideoBERT [Sun+ ICCV19] BERTを基とした，動画についての大規模事前訓練モデル Future captioning [Hosseinzadeh+, WACV21] 時刻tまでの動画から時刻t+kにおけるキャプションを生成 (future captioning) [Mori+, IEEE IV21] 自動運転動画におけるfuture captioning Output: “the athlete lifts the weight again after a few advice” Input: 𝐸𝑡 [Hosseinzadeh+ WACV21]

問題設定：日常タスクにおけるFuture Captioning 5 対象タスク：Future captioning 時刻tまでの動画から，時刻t+kにおけるイベントについての説明文を生成入力出力時刻tまでのクリップ時刻t+kにおけるイベントの説明文
“The hand contacting the yellow duck toy causes the toy to further contact the camera next to it, causing the camera to fall”

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 6
新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえキャプションを生成

Relational Self-Attention (RSA) エンコーダ • RSA [Kim+, NeurIPS21] を用いた注意機構 • イベント間の関係性を抽出新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえキャプションを生成

Transformerデコーダ • Query: RSA Encoderの出力 • Key, Value: Transformer Encoderの出力新規性 • イベント間の関係性を抽出 • 得られた関係性を踏まえキャプションを生成

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 9 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational
Self-Attention [Kim+, NeurIPS21]を利用

Self-Attention [Kim+, NeurIPS21]を利用 𝒒𝒓 = 𝒛𝒕 ∈ ℝ𝒅𝒓𝒔𝒂 𝑲𝒓 = 𝑽𝒓 = 𝒁𝒕−𝒌:𝒕+𝟏 ∈ ℝ(𝒌+𝟐)×𝒅𝒓𝒔𝒂 入力𝒙を線形変換することにより獲得 𝒁𝒕−𝒌:𝒕+𝟏 = {𝒛𝒕−𝒌 , … , 𝒛𝒕+𝟏 }

Self-Attention [Kim+, NeurIPS21]を利用 𝝋 𝝋𝑝 = 𝑾𝒑 𝒒𝒓 𝑸𝑟′ = {𝒒𝒓 ; … ; 𝒒𝒓 } 𝝋ℎ = 𝑾𝒉 𝑓flatten (𝑸𝑟′ ⨀𝑲𝒓 )} 𝝋ℎ 𝝋𝑝

Self-Attention [Kim+, NeurIPS21]を利用 𝝋 Valueについて自己相関を計算 𝝋ℎ 𝝋𝑝 𝚽𝑔 = 𝑽𝒓 + 𝑾𝒈 𝑽𝒓 T𝑽𝒓 𝚽𝑔 𝝋 = (𝝋𝑝 + 𝝋ℎ )T𝚽𝑔

Self-Attention [Kim+, NeurIPS21]を利用 𝒉nr = {𝒛𝒕−𝒌 , … , 𝒛𝒕−𝟏 , 𝝋, 𝒛𝒕+𝟏 } 出力𝒉𝐍𝐫 はTransformerデコーダでqueryに (𝑛𝑟 = 1, … , 𝑁𝑟 ) 𝒉nr RSA𝝋で𝒛𝒕 を置換

損失関数：自己回帰的な生成のためのペナルティ項を導入 14 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗
：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘

：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 交差エントロピー誤差を利用 • 正解文𝒚𝑡+1 及び生成文ෝ 𝒚𝑡+1 との間の損失

：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 • CLIP Loss [Radford+, PMLR21] 正例(時刻tの動画特徴量, 時刻t+kのキャプション特徴量)の類似度を上げる

：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 • initial word penalty 1単語目が誤りであることに対してのペナルティ ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 = 𝛾iwp ℒce 𝒚𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝛾iwp: 各単語の出現回数の逆比

：重み(ハイパーパラメータ) 4種類の損失の和を利用 𝜆corr ℒcorr 𝜆iwp ℒiwp 𝑦𝑡+𝑘,1 , 𝑝 ෝ 𝒚𝑡+𝑘,1 𝜆mse ℒmse 𝒙𝑡+𝑘 , 𝒛𝑡+𝑘 平均二乗誤差を利用 • 𝒙𝑡+𝑘 についての予測損失

実験設定 19 YouCookⅡ[Zhou+, AAAI18] データセット BILA-caption データセット “The rabbit figurine
falls off the shelf because it is pushed away by the robot” • 生活支援ロボットによる物体配置タスクにおける，危険性についての説明文が付与 • 計1000サンプル • 89のレシピ，2K本の動画 • 調理ステップごとに分割，説明文が付与 • 計12Kサンプル “Grill the tomatoes in a pan and then put them on a plate”

BILA-captionデータセットにおける定量的結果：ベースラインを上回る性能 20 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+,
NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ablation study Ours w/o iwp

BILA-captionデータセットにおける定量的結果：ベースラインを上回る性能 21 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+,
NeurIPS17]に変更 • w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study 各尺度でベースライン手法を上回る MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp

YouCook2データセットにおける定量的結果：同様に多くの評価尺度で上回る 22 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 •
w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp

YouCook2データセットにおける定量的結果：同様に多くの評価尺度で上回る 23 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 •
w/o iwp: initial word penaltyを削除 • w/o Decoder: Transformer Decoderを削除 Ablation study 同様に上回る MART [Lei+, ACL20] Ours w/o RSA Ours w/o Decoder Ours Ours w/o iwp

定性的結果：将来イベントについて適切に予測 24 Reference Robot hits the camera from above because
robot tried to put the white bottle where it is Baseline Robot hits a black teapot because robot tried to put a round white bottle Ours Robot hits the camera hard because robot tried to put a white jar  ☺ 衝突する対象について適切に記述 t-1 t

定性的結果：将来イベントについて適切に予測 25 Reference Rub flour onto the chicken dip it
in egg and coat with breadcrumbs Baseline Coat the chicken in the flour Ours Coat the chicken with flour and bread crumbs  ☺ イベントについて過不足なく記述 t-2 t-1 t t+1

定性的結果：衝突に関連する物体の記述に失敗 26 Reference Robot hits various things in the center
because robot tried to put a white jar Baseline Robot hits the white bottle in the center hard because there was it in the robot’s orbit Ours The white jar is flipped because robot tried to put it on a teacup   衝突したのはカメラ・緑の缶 t t+1

定性的結果：生成するべきイベントを誤っている例 27 Reference Place chicken on a plate or tray
and season generously with mixed spices Baseline Cut the chicken into small pieces Ours Place the chicken pieces in a bowl   時刻tについての記述となっている t-1 t t+1

エラー分析：イベントに出現する物体についての記述が未だに不足 28 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46
SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち，100文をランダムに選択しエラーについて分析

SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち，100文をランダムに選択しエラーについて分析 NE及びSEに分類される誤りが多い

SE 深刻な記述誤り 55 40 OUG 記述の過不足 5 0 ELE 記述すべきイベントの誤り 9 1 Others その他 7 9 計 92 96 提案手法による生成文のうち，100文をランダムに選択しエラーについて分析 NE及びSEに分類される誤りが多い名詞に関する記述誤りが多い動画の埋め込みを変更物体検出モデルと組み合わせ改善案

まとめ 31 ✓ 日常タスクの実行に伴う将来の危険性を予測し，キャプションを生成する future captioningタスク ✓ 過去のイベント間の関係性を用いる説明文生成モデル，Relational Future Captioning
Model for Explaining Likely Collisions (RFCM)を提案 ✓ 効果的な過去のイベント間の関係性に関する表現を生成する，Relational Self-Attention エンコーダを利用 ✓ future captioningタスクにおいて既存手法を上回る性能を確認

[JSAI22]Relational Future Captioning Model for ...

[JSAI22]Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

神原元就，杉浦孔明 (慶應義塾大学) 日常タスクにおける将来イベントのクロスモーダル説明文生成

関連研究：多くの動画説明文生成モデルは適切な将来イベントの説明が困難 2 タスク手法概要動画キャプション生成 MART [Lei+,

MART [Lei+, ACL20]： Memory Updaterモジュールによる過去情報利用 3 • 時刻t-1までのmemory，時刻tの情報からmemoryを更新するMemory Updater

関連研究：多くの動画説明文生成モデルは適切な将来イベントの説明が困難 4 タスク手法概要動画キャプション生成 MART [Lei+

問題設定：日常タスクにおけるFuture Captioning 5 対象タスク：Future captioning 時刻tまでの動画から，時刻t+kにおけるイベントについての説明文を生成入力出力時刻tまでのクリップ時刻t+kにおけるイベントの説明文

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 6

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 7

Relational Future Captioning Model for Explaining Likely Collisions (RFCM) 8

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 9 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 10 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 11 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 12 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational

Relational Self-Attention (RSA) エンコーダ: イベント間の関係性を抽出 13 • イベント間の関係性に関する特徴量を抽出 • 注意機構に，Relational

損失関数：自己回帰的な生成のためのペナルティ項を導入 14 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

損失関数：自己回帰的な生成のためのペナルティ項を導入 15 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

損失関数：自己回帰的な生成のためのペナルティ項を導入 16 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

損失関数：自己回帰的な生成のためのペナルティ項を導入 17 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

損失関数：自己回帰的な生成のためのペナルティ項を導入 18 𝜆ce ℒce 𝒚𝑡+𝑘 , 𝑝 ෝ 𝒚𝑡+𝑘 𝜆∗

実験設定 19 YouCookⅡ[Zhou+, AAAI18] データセット BILA-caption データセット “The rabbit figurine

BILA-captionデータセットにおける定量的結果：ベースラインを上回る性能 20 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+,

BILA-captionデータセットにおける定量的結果：ベースラインを上回る性能 21 Ablation study • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+,

YouCook2データセットにおける定量的結果：同様に多くの評価尺度で上回る 22 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 •

YouCook2データセットにおける定量的結果：同様に多くの評価尺度で上回る 23 • w/o RSA: RSA層をMultiHead Attention層 [Vaswani+, NeurIPS17]に変更 •

定性的結果：将来イベントについて適切に予測 24 Reference Robot hits the camera from above because

定性的結果：将来イベントについて適切に予測 25 Reference Rub flour onto the chicken dip it

定性的結果：衝突に関連する物体の記述に失敗 26 Reference Robot hits various things in the center

定性的結果：生成するべきイベントを誤っている例 27 Reference Place chicken on a plate or tray

エラー分析：イベントに出現する物体についての記述が未だに不足 28 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46

エラー分析：イベントに出現する物体についての記述が未だに不足 29 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46

エラー分析：イベントに出現する物体についての記述が未だに不足 30 エラーID 説明 BILA-caption YouCook2 NE 名詞に関する記述誤り 16 46

まとめ 31 ✓ 日常タスクの実行に伴う将来の危険性を予測し，キャプションを生成する future captioningタスク ✓ 過去のイベント間の関係性を用いる説明文生成モデル，Relational Future Captioning