Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ23] ENCHANT: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation

[RSJ23] ENCHANT: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 背景: 生活支援ロボットには安全性が求められる ▪ 生活支援ロボット ▪ 要介助者支援の解決策として注目 ▪ 基本動作の一つに物体配置 ▪ タスク実行前に危険性を予測し、ユーザに

    判断を仰ぐ機能は安全性を高める 例)バイキンマンのぬいぐるみを置く際にピンクの 鳥のぬいぐるみに衝突するリスクがあります 2 2x
  2. 問題設定: 物体配置時の衝突に関する説明文生成 3 ▪ タスク: future captioning ▪ 時刻𝑡の画像から時刻𝑡 +

    𝑘の説明文 を生成する ▪ 入力 ▪ 配置領域および対象物体の画像 ▪ 出力 ▪ 物体配置時に起こる衝突に関する 説明文 例)ルービックキューブを置こうとして カメラにルービックキューブが衝突する 配置領域 対象物体
  3. 関連研究: 事前に衝突を予測し説明することは困難 4 手法名 内容 CLEVRER [Yi+, ICLR20] 物体同士の衝突に関するデータセットを構築 多様な形状の物体に対応していない

    Where2Act [Guibas+, ICCV21] 多関節物体の相互作用に焦点を当て、物体操作の 成功確率を予測 NNFC [小松+, JSAI23] NNLM [Urvashi+, ICLR21] を導入し、衝突に関する future captioningタスクに取り組んだ手法 CLEVRER Where2Act NNFC
  4. Nearest Neighbor Future Captioning (NNFC) 5 入力 NNLM [Uravashi+, ICLR21]

    をマルチモーダル言語生成に導入 配置領域の特徴量抽出が不適切であり、生成文の品質が不十分
  5. Nearest Neighbor Future Captioning (NNFC) 6 入力 NNLM [Uravashi+, ICLR21]

    をマルチモーダル言語生成に導入 配置領域の特徴量抽出が不適切であり、生成文の品質が不十分 タスク実行前の 画像を入力
  6. Nearest Neighbor Future Captioning (NNFC) 7 NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入

    配置領域の特徴量抽出が不適切であり、生成文の品質が不十分 NNLMに基づき、 𝑘近傍法を用いて 出力をrescore
  7. Nearest Neighbor Future Captioning (NNFC) 8 NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入

    配置領域の特徴量抽出が不適切であり、生成文の品質が不十分
  8. 提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

    Neighbor Augmentation Module ▪ 大規模言語モデルによる生成文を用いてデータ拡張を行う ▪ Parallel Cross Attentional Decoder ▪ 画像および言語の特徴抽出を対称的に行う ▪ Segment Feature Extractor ▪ Attention mapとセグメンテーションモデルを用いて 特徴量を抽出 9
  9. 提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

    Neighbor Augmentation Module ▪ 大規模言語モデルによる生成文を用いてデータ拡張を行う ▪ Parallel Cross Attentional Decoder ▪ 画像および言語の特徴抽出を対称的に行う ▪ Segment Feature Extractor ▪ Attention mapとセグメンテーションモデルを用いて 特徴量を抽出 10
  10. 提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

    Neighbor Augmentation Module ▪ 大規模言語モデルによる生成文を用いてデータ拡張を行う ▪ Parallel Cross Attentional Decoder ▪ 画像および言語の特徴抽出を対称的に行う ▪ Segment Feature Extractor ▪ Attention mapとセグメンテーションモデルを用いて 特徴量を抽出 11
  11. 提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

    Neighbor Augmentation Module ▪ 大規模言語モデルによる生成文を用いてデータ拡張を行う ▪ Parallel Cross Attentional Decoder ▪ 画像および言語の特徴抽出を対称的に行う ▪ Segment Feature Extractor ▪ Attention mapとセグメンテーションモデルを用いて 特徴量を抽出 12
  12. Segment Feature Extractor: attention map とセグメンテーション画像を重畳 13 配置領域 衝突に関する attention

    map SAM [Kirillov+] によるセグメンテーション画像 Segment Feature Extractorの出力
  13. Parallel Cross Attentional Decoder: 画像および言語の特徴量から次トークンの予測確率を出力 次トークンの 予測確率 出力 ◼ 3種類のマルチモーダル特徴量

    ▪ 対象物体の画像特徴量 ▪ 配置領域の画像特徴量 ▪ 障害物の特徴量 ◼ 言語と画像の マルチモーダル特徴量 入力 14
  14. Parallel Cross Attentional Decoder: 画像および言語の特徴量から次トークンの予測確率を出力 15 次トークンの 予測確率 出力 ◼

    画像特徴量および言語特徴量を対称的に抽出 ◼ Cross Attention 構造を使用して予測 ◼ 3種類のマルチモーダル特徴量 ▪ 対象物体の画像特徴量 ▪ 配置領域の画像特徴量 ▪ 障害物の特徴量 ◼ 言語と画像の マルチモーダル特徴量 入力
  15. Nearest Neighbor Augmentation Module: LLMによる生成文を用いてデータを拡張 アームがペットボトルを置こうとして、 砂糖の容器に衝突して倒れる アームがペットボトルを置こうとして、 砂糖の容器に衝突して弾き飛ばされる LLM

    入力例 LLM 出力例 16 ▪ LLMによるデータ拡張を行わない場合 同じ動作を行った際に起こり得る複数の可能性 を考慮できない LLMを用いることで、起こる可能性のある事象 を含むサンプルを生成 後件部を変更するプロンプトを使用
  16. ▪ Inquire & Aggregate ▪ Datastore: LLMを用いてデータを拡張した 訓練集合の潜在表現を事前に格納 ▪ 潜在表現に対して、Datastoreより𝑘近傍𝑁を

    取得し、次トークンの予測確率𝑝knn ො 𝑦𝑡+1 を計算 ▪ rescore ▪ 最終的な出力を以下で計算 𝑝total ො 𝑦𝑡+1 = 𝜆𝑝 ො 𝑦𝑡+1 + (1 − 𝜆)𝑝knn ො 𝑦𝑡+1 Nearest Neighbor Augmentation Module: 𝒌近傍法を用いてdecoder の出力をrescore 17 decoder の出力
  17. 実験設定: クラウドソーシングでアノテーションを行った BILA-caption 3.0を構築 ▪ BILA-caption 3.0 データセット ▪ 配置領域のRGBD画像

    ▪ 対象物体のRGBD画像 ▪ 危険性に関する日本語の説明文 ▪ 4,042サンプル ▪ train: valid: test = 3185: 363: 494 アノテート例: ケチャップの容器を机の上に置こうとして、 醤油瓶に衝突し、ケチャップの容器が倒れる 18 ※SIGVerse [Inamura+, 13] を拡張したシミュレーション環境を利用 2x
  18. 定量的結果: すべての評価尺度で精度向上 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 手法

    JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 19
  19. 手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±

    0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 + 2.96 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 20
  20. 手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±

    0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 + 2.96 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 21 日本語における人間による評価との相関が 他の自動評価尺度と比較して最も高い
  21. 手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±

    0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 22
  22. 定性的結果(成功例): 衝突物体を正しく表現 配置領域 対称物体 正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービッ クキューブとマヨネーズが衝突する NNFC [小松+,JSAI23] アームがルービックキューブを机の上に置こうとしたが、おこうとした場所

    にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器 に衝突し、マヨネーズの容器が少し動く 23 2x
  23. Ablation Study: 各モジュールの有効性を確認 ▪ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい Ablation 条件 JaSPICE BLEU4 METEOR

    ROUGE-L CIDEr-D w/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60 w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20 w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 26
  24. Ablation Study: 各モジュールの有効性を確認 ▪ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい Ablation 条件 JaSPICE BLEU4 METEOR

    ROUGE-L CIDEr-D w/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60 w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20 w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 27
  25. 定性的結果(失敗例): 障害物名の生成誤り 配置領域 attention map 29 正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+,

    JSAI23] アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動 でペットボトルが少し動く Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少 し机の上から落下した 衝突物体が 不適切 衝突物体が 不適切 2x
  26. 定性的結果(失敗例): 障害物名の生成誤り 配置領域 attention map 30 正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+,

    JSAI23] アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動 でペットボトルが少し動く Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少 し机の上から落下した 2x 注目領域が 不適切
  27. エラー分析: 衝突に関連する物体の特定に失敗 31 エラーID 説明 サンプル数 OCE 衝突に関連する障害物に関する記述誤り 25 SE

    深刻な記述誤り 6 Others その他 4 合計 - 35 ▪ JaSPICEによる評価が15未満のサンプルを分析 ▪ 衝突に関連する障害物に関する記述誤りが主要因
  28. エラー分析: 衝突に関連する物体の特定に失敗 32 エラーID 説明 サンプル数 OCE 衝突に関連する障害物に関する記述誤り 25 SE

    深刻な記述誤り 6 Others その他 4 合計 - 35 ▪ JaSPICEによる評価が15未満のサンプルを分析 ▪ 衝突に関連する障害物に関する記述誤りが主要因
  29. まとめ ▪ Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) の提案

    ▪ 大規模言語モデルによる生成文を用いてデータを拡張 ▪ 主要な評価尺度において、ベースライン手法を上回る結果を獲得 33
  30. Appendix 損失関数: 交差エントロピーおよびInfoNCE損失を使用 ▪ 損失関数 ▪ 𝐿 = 𝜆𝐶𝐸 𝐿𝐶𝐸

    + 𝜆𝑁𝐶𝐸 𝐿𝑁𝐶𝐸 𝐿𝐶𝐸 = CE(𝑦𝑡+1 , 𝑝 ො 𝑦𝑡+1 ) : 交差エントロピー損失 𝐿𝑁𝐶𝐸 = infoNCE(𝒉𝑖𝑚𝑔 , 𝒉𝑡𝑥𝑡 ) : infoNCE損失 [Radford+, ICML21] 34