[RSJ22]Cross-Modal Explanation Generation of Hazards in Object Placement Tasks

Slide 1

Slide 1 text

物体配置タスクにおける危険性のクロスモーダル説明生成慶應義塾大学飯岡雄偉，神原元就，杉浦孔明

Slide 2

Slide 2 text

背景：社会的問題の解決が，生活支援ロボットに期待される ◼ 生活支援ロボット • 少子高齢化による人手不足の解消や，要介護者への物理的支援を可能に 2

Slide 3

Slide 3 text

背景：未来の危険性予測が，ユーザの安全性を向上させる 3 ◼ 自然言語によって，起こりうる危険を事前にユーザにフィードバック ➢ ユーザの安全性の向上 ex. ロボット「グラスを置くと，中央の梨やカメラに当たる恐れがあります」

Slide 4

Slide 4 text

問題設定：衝突予測＋説明文生成 ◼ 対象タスク：future captioningタスク • 時刻𝑡までの動画から，時刻𝑡 + 1に起こるイベントの説明文を生成 ◼ 入力 • 時刻𝑡までの系列データ ◼ 出力 • 時刻𝑡 + 1に起こるイベントの説明文 4

Slide 5

Slide 5 text

関連研究：将来イベントにおける物体の記述が不十分入力将来 RFCM [Kambara+ ICIP22] Robot hits the apple and the stuffed bear hard because robot tried to put the hourglass where they are. タスク手法概要動画キャプション生成 MART [Lei+, ACL20] Memory Updaterモジュールにより過去の動画情報を利用 future captioning [Mori+, IEEE IV21] 自動運転において，過去の動画情報とセンサ情報を利用 RFCM [Kambara+, ICIP22] 各時刻のイベント間の関係性を抽出 5

Slide 6

Slide 6 text

提案手法：rec-RFCM 6  新規性 ✓ 再構成損失の導入 ✓ InfoNCE損失の導入 ➢ 物体についての記述をより正確に ➢ キャプション生成の性能をより高める・・・入力 Transformer Encoder Transformer Decoder RSA Encoder rec-RFCM 出力 The robot hits the plastic bottle because it tried to put the green can on it t t-k

Slide 7

Slide 7 text

構造（1 / 4）：3つのモジュールから構成 ① RSA Encoder ② Transformer Encoder ③ Transformer Decoder 7

Slide 8

Slide 8 text

構造（2 / 4）：Relational Self-Attention (RSA) Encoder • 各時刻のイベント間の関係性を抽出 • 注意機構に，Relational Self-Attention [Kim+, NeurIPS21]を採用 • 入力：画像特徴量の系列データ • 出力：将来の予測画像を含む画像特徴量 8

Slide 9

Slide 9 text

構造（3 / 4）：Transformer Encoder / Decoder • Transformer [Vaswani+, NeurIPS17]の構造を採用 • Encoder – 入力と出力：言語特徴量 • Decoder – 入力 • RSA Encoderからの画像特徴量 • Transformer Encoderからの言語特徴量 – 出力：将来画像のキャプション 9

Slide 10

Slide 10 text

構造（4 / 4）：損失関数 ① 交差エントロピー誤差：生成文ෝ 𝒚𝑡+1 と，正解文𝒚𝑡+1 との損失 ② 再構成損失：時刻𝑡の画像の中間特徴量෡ 𝒉img 𝑡 と，元の特徴量𝒉img 𝑡 との2乗誤差 ➢ 画像特徴量が失われないように ③ InfoNCE損失：予測画像の特徴量෡ 𝒉img 𝑡+1と，言語特徴量෡ 𝒉txt との類似度を高める ➢ より画像に適するキャプションを生成が目標 10 ① ② ③

Slide 11

Slide 11 text

実験設定：物体配置タスク  データセット • BILA-Captionデータセット[Kambara+, ICIP22] • 生活支援ロボットによる物体配置タスクにおける，衝突の危険性についての説明文を付与 • train：1000 samples，validation：100 samples，test：100 samples • 入力：衝突前までの0.2秒ごとのフレーム • 出力：これから起こる衝突の予測文 11 robot hits the black teapot hard because robot tried to put an apple on it

Slide 12

Slide 12 text

定量的結果：各標準尺度についてベースライン手法を上回る • キャプション生成の主要尺度であるCIDEr-Dにおいて，大幅な向上 – その他の尺度においても，すべてベースライン手法を上回る 12 BLEU4↑ METEOR↑ ROUGE-L↑ CIDEr-D↑ RFCM [Kambara+, ICIP22] 19.15±0.81 21.13±0.41 38.92±0.93 41.68±3.41 提案手法 23.42±0.67 23.75±0.53 43.29±1.38 62.00±3.82 約20ポイント↑

Slide 13

Slide 13 text

定性的結果：物体に関する記述がより正確に 13 手法生成文 Ground Truth Robot bumps into the stuffed bear because robot tried to put the red bottle where it is. RFCM Robot hits the apple and the stuffed bear hard because robot tried to put the hourglass where they are. 提案手法 Robot rubs the hand on a teddy bear because robot tried to put a red bottle. 衝突前衝突時

Slide 14

Slide 14 text

失敗例：類似物体に対する記述が不十分 14 手法生成文 Ground Truth The mayonnaise falls from the desk because robot hits it like crushing it. 提案手法 The white bottle in the foreground falls off the shelf because the arm hit. white bottleに見える

Slide 15

Slide 15 text

まとめ：rec-RFCM  背景 ✓ 生活支援ロボットの危険予測とフィードバックは重要  提案手法 ✓ 再構成損失とInfoNCE損失の導入した，future captioningモデルである rec-RFCMを提案  結論 ✓ 既存手法を上回る性能＋物体に関する記述がより正確に 15

Slide 16

Slide 16 text

Ablation Study：追加実験による新事実 16 BLEU4↑ METEOR↑ ROUGE-L↑ CIDEr-D↑ w/o 再構成損失 22.44±0.24 22.18±0.36 43.44±0.35 49.66±3.11 w/o InfoNCE損失 23.68±0.94 24.08±0.64 43.47±0.74 66.45±3.77 提案手法 23.42±0.67 23.75±0.53 43.29±1.38 62.00±3.82 • InfoNCE損失が性能を上げているというのは勘違いであった – 主要尺度のCIDEr-Dが，提案手法よりも4.45ポイント上昇

Slide 17

Slide 17 text

Appendix：エラー分析エラーID 説明提案手法 RFCM NE 名詞に関する記述誤り 48 43 SE 名詞と動詞の記述誤り 12 31 OUG 記述の過不足 8 8 GE 文法上の誤り 3 2 計 71 84 17 ✓ サンプル文100文をランダムに選び，分析 ✓ SEが大幅に減少したため，予測性能が向上していることがわかる

Slide 18

Slide 18 text

Appendix：自動評価指標の詳細 18 • BLEU4：N-gram(N=4)の適合率 • METEOR：適合率と再現率を両方考慮 • ROUGE-L：最大一致シーケンスのF値 • CIDEr-D：正解文との類似度画像キャプショニング用要約用人間とのn-gram一致度