$30 off During Our Annual Pro Sale. View Details »

[RSJ23] ENCHANT: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation

[RSJ23] ENCHANT: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 平野慎之助1, 小松拓実,1 和田唯我1, 神原元就1, 畑中駿平1,
    平川翼2, 山下隆義2, 藤吉弘亘2杉浦孔明1
    1慶應義塾大学, 2中部大学
    ENCHANT:
    大規模言語モデルを用いた仮説生成に基づく
    クロスモーダル説明文生成

    View Slide

  2. 背景: 生活支援ロボットには安全性が求められる
    ■ 生活支援ロボット
    ■ 要介助者支援の解決策として注目
    ■ 基本動作の一つに物体配置
    ■ タスク実行前に危険性を予測し、ユーザに
    判断を仰ぐ機能は安全性を高める
    例)バイキンマンのぬいぐるみを置く際にピンクの
    鳥のぬいぐるみに衝突するリスクがあります
    2
    2x

    View Slide

  3. 問題設定: 物体配置時の衝突に関する説明文生成
    3
    ■ タスク: future captioning
    ■ 時刻𝑡の画像から時刻𝑡 + 𝑘の説明文
    を生成する
    ■ 入力
    ■ 配置領域および対象物体の画像
    ■ 出力
    ■ 物体配置時に起こる衝突に関する
    説明文
    例)ルービックキューブを置こうとして
    カメラにルービックキューブが衝突する
    配置領域 対象物体

    View Slide

  4. 関連研究: 事前に衝突を予測し説明することは困難
    4
    手法名 内容
    CLEVRER [Yi+, ICLR20] 物体同士の衝突に関するデータセットを構築
    多様な形状の物体に対応していない
    Where2Act [Guibas+, ICCV21] 多関節物体の相互作用に焦点を当て、物体操作の
    成功確率を予測
    NNFC [小松+, JSAI23] NNLM [Urvashi+, ICLR21] を導入し、衝突に関する
    future captioningタスクに取り組んだ手法
    CLEVRER Where2Act NNFC

    View Slide

  5. Nearest Neighbor Future Captioning (NNFC)
    5
    入力
    NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入
    配置領域の特徴量抽出が不適切であり、生成文の品質が不十分

    View Slide

  6. Nearest Neighbor Future Captioning (NNFC)
    6
    入力
    NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入
    配置領域の特徴量抽出が不適切であり、生成文の品質が不十分
    タスク実行前の
    画像を入力

    View Slide

  7. Nearest Neighbor Future Captioning (NNFC)
    7
    NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入
    配置領域の特徴量抽出が不適切であり、生成文の品質が不十分
    NNLMに基づき、
    𝑘近傍法を用いて
    出力をrescore

    View Slide

  8. Nearest Neighbor Future Captioning (NNFC)
    8
    NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入
    配置領域の特徴量抽出が不適切であり、生成文の品質が不十分

    View Slide

  9. 提案手法: Enhanced Nearest-neighbor Captioning with
    Hypothesis AugmeNTation (ENCHANT)
    ■ Nearest Neighbor Augmentation Module
    ■ 大規模言語モデルによる生成文を用いてデータ拡張を行う
    ■ Parallel Cross Attentional Decoder
    ■ 画像および言語の特徴抽出を対称的に行う
    ■ Segment Feature Extractor
    ■ Attention mapとセグメンテーションモデルを用いて
    特徴量を抽出
    9

    View Slide

  10. 提案手法: Enhanced Nearest-neighbor Captioning with
    Hypothesis AugmeNTation (ENCHANT)
    ■ Nearest Neighbor Augmentation Module
    ■ 大規模言語モデルによる生成文を用いてデータ拡張を行う
    ■ Parallel Cross Attentional Decoder
    ■ 画像および言語の特徴抽出を対称的に行う
    ■ Segment Feature Extractor
    ■ Attention mapとセグメンテーションモデルを用いて
    特徴量を抽出
    10

    View Slide

  11. 提案手法: Enhanced Nearest-neighbor Captioning with
    Hypothesis AugmeNTation (ENCHANT)
    ■ Nearest Neighbor Augmentation Module
    ■ 大規模言語モデルによる生成文を用いてデータ拡張を行う
    ■ Parallel Cross Attentional Decoder
    ■ 画像および言語の特徴抽出を対称的に行う
    ■ Segment Feature Extractor
    ■ Attention mapとセグメンテーションモデルを用いて
    特徴量を抽出
    11

    View Slide

  12. 提案手法: Enhanced Nearest-neighbor Captioning with
    Hypothesis AugmeNTation (ENCHANT)
    ■ Nearest Neighbor Augmentation Module
    ■ 大規模言語モデルによる生成文を用いてデータ拡張を行う
    ■ Parallel Cross Attentional Decoder
    ■ 画像および言語の特徴抽出を対称的に行う
    ■ Segment Feature Extractor
    ■ Attention mapとセグメンテーションモデルを用いて
    特徴量を抽出
    12

    View Slide

  13. Segment Feature Extractor:
    attention map とセグメンテーション画像を重畳
    13
    配置領域
    衝突に関する
    attention map
    SAM [Kirillov+] によるセグメンテーション画像
    Segment Feature Extractorの出力

    View Slide

  14. Parallel Cross Attentional Decoder:
    画像および言語の特徴量から次トークンの予測確率を出力
    次トークンの
    予測確率
    出力
    ◼ 3種類のマルチモーダル特徴量
    ■ 対象物体の画像特徴量
    ■ 配置領域の画像特徴量
    ■ 障害物の特徴量
    ◼ 言語と画像の
    マルチモーダル特徴量
    入力
    14

    View Slide

  15. Parallel Cross Attentional Decoder:
    画像および言語の特徴量から次トークンの予測確率を出力
    15
    次トークンの
    予測確率
    出力
    ◼ 画像特徴量および言語特徴量を対称的に抽出
    ◼ Cross Attention 構造を使用して予測
    ◼ 3種類のマルチモーダル特徴量
    ■ 対象物体の画像特徴量
    ■ 配置領域の画像特徴量
    ■ 障害物の特徴量
    ◼ 言語と画像の
    マルチモーダル特徴量
    入力

    View Slide

  16. Nearest Neighbor Augmentation Module:
    LLMによる生成文を用いてデータを拡張
    アームがペットボトルを置こうとして、
    砂糖の容器に衝突して倒れる
    アームがペットボトルを置こうとして、
    砂糖の容器に衝突して弾き飛ばされる
    LLM
    入力例
    LLM
    出力例
    16
    ■ LLMによるデータ拡張を行わない場合
    同じ動作を行った際に起こり得る複数の可能性
    を考慮できない
    LLMを用いることで、起こる可能性のある事象
    を含むサンプルを生成
    後件部を変更するプロンプトを使用

    View Slide

  17. ■ Inquire & Aggregate
    ■ Datastore: LLMを用いてデータを拡張した
    訓練集合の潜在表現を事前に格納
    ■ 潜在表現に対して、Datastoreより𝑘近傍𝑁を
    取得し、次トークンの予測確率𝑝knn

    𝑦𝑡+1
    を計算
    ■ rescore
    ■ 最終的な出力を以下で計算
    𝑝total

    𝑦𝑡+1
    = 𝜆𝑝 ො
    𝑦𝑡+1
    + (1 − 𝜆)𝑝knn

    𝑦𝑡+1
    Nearest Neighbor Augmentation Module:
    𝒌近傍法を用いてdecoder の出力をrescore
    17
    decoder の出力

    View Slide

  18. 実験設定: クラウドソーシングでアノテーションを行った
    BILA-caption 3.0を構築
    ■ BILA-caption 3.0 データセット
    ■ 配置領域のRGBD画像
    ■ 対象物体のRGBD画像
    ■ 危険性に関する日本語の説明文
    ■ 4,042サンプル
    ■ train: valid: test = 3185: 363: 494
    アノテート例:
    ケチャップの容器を机の上に置こうとして、
    醤油瓶に衝突し、ケチャップの容器が倒れる
    18
    ※SIGVerse [Inamura+, 13] を拡張したシミュレーション環境を利用
    2x

    View Slide

  19. 定量的結果: すべての評価尺度で精度向上
    ■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を
    2.96ポイント上回った
    ■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った
    手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D
    NNFC
    [小松+, JSAI23]
    19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05
    Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39
    19

    View Slide

  20. 手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D
    NNFC
    [小松+, JSAI23]
    19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05
    Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39
    定量的結果: すべての評価尺度で精度向上
    + 2.96
    ■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を
    2.96ポイント上回った
    ■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った
    20

    View Slide

  21. 手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D
    NNFC
    [小松+, JSAI23]
    19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05
    Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39
    定量的結果: すべての評価尺度で精度向上
    + 2.96
    ■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を
    2.96ポイント上回った
    ■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った
    21
    日本語における人間による評価との相関が
    他の自動評価尺度と比較して最も高い

    View Slide

  22. 手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D
    NNFC
    [小松+, JSAI23]
    19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05
    Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39
    定量的結果: すべての評価尺度で精度向上
    ■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を
    2.96ポイント上回った
    ■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った
    22

    View Slide

  23. 定性的結果(成功例): 衝突物体を正しく表現
    配置領域 対称物体
    正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービッ
    クキューブとマヨネーズが衝突する
    NNFC
    [小松+,JSAI23]
    アームがルービックキューブを机の上に置こうとしたが、おこうとした場所
    にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる
    Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器
    に衝突し、マヨネーズの容器が少し動く
    23
    2x

    View Slide

  24. 正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービッ
    クキューブとマヨネーズが衝突する
    NNFC
    [小松+,JSAI23]
    アームがルービックキューブを机の上に置こうとしたが、おこうとした場所
    にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる
    Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器
    に衝突し、マヨネーズの容器が少し動く
    定性的結果(成功例): 衝突物体を正しく表現
    配置領域 対称物体
    24
    2x
    衝突物体が
    不適切

    View Slide

  25. 正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービッ
    クキューブとマヨネーズが衝突する
    NNFC
    [小松+,JSAI23]
    アームがルービックキューブを机の上に置こうとしたが、おこうとした場所
    にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる
    Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器
    に衝突し、マヨネーズの容器が少し動く
    定性的結果(成功例): 衝突物体を正しく表現
    配置領域 対称物体
    25
    衝突物体に関して
    適切に記述
    2x

    View Slide

  26. Ablation Study: 各モジュールの有効性を確認
    ■ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい
    Ablation 条件 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D
    w/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60
    w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20
    w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69
    Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39
    26

    View Slide

  27. Ablation Study: 各モジュールの有効性を確認
    ■ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい
    Ablation 条件 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D
    w/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60
    w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20
    w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69
    Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39
    27

    View Slide

  28. 定性的結果(失敗例): 障害物名の生成誤り
    28
    正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く
    NNFC
    [小松+, JSAI23]
    アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動
    でペットボトルが少し動く
    Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少
    し机の上から落下した
    配置領域
    2x attention map

    View Slide

  29. 定性的結果(失敗例): 障害物名の生成誤り
    配置領域 attention map
    29
    正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く
    NNFC
    [小松+, JSAI23]
    アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動
    でペットボトルが少し動く
    Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少
    し机の上から落下した
    衝突物体が
    不適切
    衝突物体が
    不適切
    2x

    View Slide

  30. 定性的結果(失敗例): 障害物名の生成誤り
    配置領域 attention map
    30
    正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く
    NNFC
    [小松+, JSAI23]
    アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動
    でペットボトルが少し動く
    Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少
    し机の上から落下した
    2x
    注目領域が
    不適切

    View Slide

  31. エラー分析: 衝突に関連する物体の特定に失敗
    31
    エラーID 説明 サンプル数
    OCE 衝突に関連する障害物に関する記述誤り 25
    SE 深刻な記述誤り 6
    Others その他 4
    合計 - 35
    ■ JaSPICEによる評価が15未満のサンプルを分析
    ■ 衝突に関連する障害物に関する記述誤りが主要因

    View Slide

  32. エラー分析: 衝突に関連する物体の特定に失敗
    32
    エラーID 説明 サンプル数
    OCE 衝突に関連する障害物に関する記述誤り 25
    SE 深刻な記述誤り 6
    Others その他 4
    合計 - 35
    ■ JaSPICEによる評価が15未満のサンプルを分析
    ■ 衝突に関連する障害物に関する記述誤りが主要因

    View Slide

  33. まとめ
    ■ Enhanced Nearest-neighbor Captioning with Hypothesis
    AugmeNTation (ENCHANT) の提案
    ■ 大規模言語モデルによる生成文を用いてデータを拡張
    ■ 主要な評価尺度において、ベースライン手法を上回る結果を獲得
    33

    View Slide

  34. Appendix 損失関数:
    交差エントロピーおよびInfoNCE損失を使用
    ■ 損失関数
    ■ 𝐿 = 𝜆𝐶𝐸
    𝐿𝐶𝐸
    + 𝜆𝑁𝐶𝐸
    𝐿𝑁𝐶𝐸
    𝐿𝐶𝐸
    = CE(𝑦𝑡+1
    , 𝑝 ො
    𝑦𝑡+1
    ) : 交差エントロピー損失
    𝐿𝑁𝐶𝐸
    = infoNCE(𝒉𝑖𝑚𝑔
    , 𝒉𝑡𝑥𝑡
    ) : infoNCE損失 [Radford+, ICML21]
    34

    View Slide