平野慎之助1, 小松拓実,1 和田唯我1, 神原元就1, 畑中駿平1,平川翼2, 山下隆義2, 藤吉弘亘2杉浦孔明11慶應義塾大学, 2中部大学ENCHANT:大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成
View Slide
背景: 生活支援ロボットには安全性が求められる■ 生活支援ロボット■ 要介助者支援の解決策として注目■ 基本動作の一つに物体配置■ タスク実行前に危険性を予測し、ユーザに判断を仰ぐ機能は安全性を高める例)バイキンマンのぬいぐるみを置く際にピンクの鳥のぬいぐるみに衝突するリスクがあります22x
問題設定: 物体配置時の衝突に関する説明文生成3■ タスク: future captioning■ 時刻𝑡の画像から時刻𝑡 + 𝑘の説明文を生成する■ 入力■ 配置領域および対象物体の画像■ 出力■ 物体配置時に起こる衝突に関する説明文例)ルービックキューブを置こうとしてカメラにルービックキューブが衝突する配置領域 対象物体
関連研究: 事前に衝突を予測し説明することは困難4手法名 内容CLEVRER [Yi+, ICLR20] 物体同士の衝突に関するデータセットを構築多様な形状の物体に対応していないWhere2Act [Guibas+, ICCV21] 多関節物体の相互作用に焦点を当て、物体操作の成功確率を予測NNFC [小松+, JSAI23] NNLM [Urvashi+, ICLR21] を導入し、衝突に関するfuture captioningタスクに取り組んだ手法CLEVRER Where2Act NNFC
Nearest Neighbor Future Captioning (NNFC)5入力NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入配置領域の特徴量抽出が不適切であり、生成文の品質が不十分
Nearest Neighbor Future Captioning (NNFC)6入力NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入配置領域の特徴量抽出が不適切であり、生成文の品質が不十分タスク実行前の画像を入力
Nearest Neighbor Future Captioning (NNFC)7NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入配置領域の特徴量抽出が不適切であり、生成文の品質が不十分NNLMに基づき、𝑘近傍法を用いて出力をrescore
Nearest Neighbor Future Captioning (NNFC)8NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入配置領域の特徴量抽出が不適切であり、生成文の品質が不十分
提案手法: Enhanced Nearest-neighbor Captioning withHypothesis AugmeNTation (ENCHANT)■ Nearest Neighbor Augmentation Module■ 大規模言語モデルによる生成文を用いてデータ拡張を行う■ Parallel Cross Attentional Decoder■ 画像および言語の特徴抽出を対称的に行う■ Segment Feature Extractor■ Attention mapとセグメンテーションモデルを用いて特徴量を抽出9
提案手法: Enhanced Nearest-neighbor Captioning withHypothesis AugmeNTation (ENCHANT)■ Nearest Neighbor Augmentation Module■ 大規模言語モデルによる生成文を用いてデータ拡張を行う■ Parallel Cross Attentional Decoder■ 画像および言語の特徴抽出を対称的に行う■ Segment Feature Extractor■ Attention mapとセグメンテーションモデルを用いて特徴量を抽出10
提案手法: Enhanced Nearest-neighbor Captioning withHypothesis AugmeNTation (ENCHANT)■ Nearest Neighbor Augmentation Module■ 大規模言語モデルによる生成文を用いてデータ拡張を行う■ Parallel Cross Attentional Decoder■ 画像および言語の特徴抽出を対称的に行う■ Segment Feature Extractor■ Attention mapとセグメンテーションモデルを用いて特徴量を抽出11
提案手法: Enhanced Nearest-neighbor Captioning withHypothesis AugmeNTation (ENCHANT)■ Nearest Neighbor Augmentation Module■ 大規模言語モデルによる生成文を用いてデータ拡張を行う■ Parallel Cross Attentional Decoder■ 画像および言語の特徴抽出を対称的に行う■ Segment Feature Extractor■ Attention mapとセグメンテーションモデルを用いて特徴量を抽出12
Segment Feature Extractor:attention map とセグメンテーション画像を重畳13配置領域衝突に関するattention mapSAM [Kirillov+] によるセグメンテーション画像Segment Feature Extractorの出力
Parallel Cross Attentional Decoder:画像および言語の特徴量から次トークンの予測確率を出力次トークンの予測確率出力◼ 3種類のマルチモーダル特徴量■ 対象物体の画像特徴量■ 配置領域の画像特徴量■ 障害物の特徴量◼ 言語と画像のマルチモーダル特徴量入力14
Parallel Cross Attentional Decoder:画像および言語の特徴量から次トークンの予測確率を出力15次トークンの予測確率出力◼ 画像特徴量および言語特徴量を対称的に抽出◼ Cross Attention 構造を使用して予測◼ 3種類のマルチモーダル特徴量■ 対象物体の画像特徴量■ 配置領域の画像特徴量■ 障害物の特徴量◼ 言語と画像のマルチモーダル特徴量入力
Nearest Neighbor Augmentation Module:LLMによる生成文を用いてデータを拡張アームがペットボトルを置こうとして、砂糖の容器に衝突して倒れるアームがペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされるLLM入力例LLM出力例16■ LLMによるデータ拡張を行わない場合同じ動作を行った際に起こり得る複数の可能性を考慮できないLLMを用いることで、起こる可能性のある事象を含むサンプルを生成後件部を変更するプロンプトを使用
■ Inquire & Aggregate■ Datastore: LLMを用いてデータを拡張した訓練集合の潜在表現を事前に格納■ 潜在表現に対して、Datastoreより𝑘近傍𝑁を取得し、次トークンの予測確率𝑝knnො𝑦𝑡+1を計算■ rescore■ 最終的な出力を以下で計算𝑝totalො𝑦𝑡+1= 𝜆𝑝 ො𝑦𝑡+1+ (1 − 𝜆)𝑝knnො𝑦𝑡+1Nearest Neighbor Augmentation Module:𝒌近傍法を用いてdecoder の出力をrescore17decoder の出力
実験設定: クラウドソーシングでアノテーションを行ったBILA-caption 3.0を構築■ BILA-caption 3.0 データセット■ 配置領域のRGBD画像■ 対象物体のRGBD画像■ 危険性に関する日本語の説明文■ 4,042サンプル■ train: valid: test = 3185: 363: 494アノテート例:ケチャップの容器を机の上に置こうとして、醤油瓶に衝突し、ケチャップの容器が倒れる18※SIGVerse [Inamura+, 13] を拡張したシミュレーション環境を利用2x
定量的結果: すべての評価尺度で精度向上■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を2.96ポイント上回った■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-DNNFC[小松+, JSAI23]19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.3919
手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-DNNFC[小松+, JSAI23]19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39定量的結果: すべての評価尺度で精度向上+ 2.96■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を2.96ポイント上回った■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った20
手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-DNNFC[小松+, JSAI23]19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39定量的結果: すべての評価尺度で精度向上+ 2.96■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を2.96ポイント上回った■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った21日本語における人間による評価との相関が他の自動評価尺度と比較して最も高い
手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-DNNFC[小松+, JSAI23]19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39定量的結果: すべての評価尺度で精度向上■ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を2.96ポイント上回った■ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った22
定性的結果(成功例): 衝突物体を正しく表現配置領域 対称物体正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するNNFC[小松+,JSAI23]アームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるOurs アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く232x
正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するNNFC[小松+,JSAI23]アームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるOurs アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く定性的結果(成功例): 衝突物体を正しく表現配置領域 対称物体242x衝突物体が不適切
正解文 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するNNFC[小松+,JSAI23]アームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるOurs アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く定性的結果(成功例): 衝突物体を正しく表現配置領域 対称物体25衝突物体に関して適切に記述2x
Ablation Study: 各モジュールの有効性を確認■ LLMによるデータ拡張が提案手法の性能へ影響が最も大きいAblation 条件 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-Dw/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.3926
Ablation Study: 各モジュールの有効性を確認■ LLMによるデータ拡張が提案手法の性能へ影響が最も大きいAblation 条件 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-Dw/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.3927
定性的結果(失敗例): 障害物名の生成誤り28正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置くNNFC[小松+, JSAI23]アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動でペットボトルが少し動くOurs アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少し机の上から落下した配置領域2x attention map
定性的結果(失敗例): 障害物名の生成誤り配置領域 attention map29正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置くNNFC[小松+, JSAI23]アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動でペットボトルが少し動くOurs アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少し机の上から落下した衝突物体が不適切衝突物体が不適切2x
定性的結果(失敗例): 障害物名の生成誤り配置領域 attention map30正解文 アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置くNNFC[小松+, JSAI23]アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動でペットボトルが少し動くOurs アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少し机の上から落下した2x注目領域が不適切
エラー分析: 衝突に関連する物体の特定に失敗31エラーID 説明 サンプル数OCE 衝突に関連する障害物に関する記述誤り 25SE 深刻な記述誤り 6Others その他 4合計 - 35■ JaSPICEによる評価が15未満のサンプルを分析■ 衝突に関連する障害物に関する記述誤りが主要因
エラー分析: 衝突に関連する物体の特定に失敗32エラーID 説明 サンプル数OCE 衝突に関連する障害物に関する記述誤り 25SE 深刻な記述誤り 6Others その他 4合計 - 35■ JaSPICEによる評価が15未満のサンプルを分析■ 衝突に関連する障害物に関する記述誤りが主要因
まとめ■ Enhanced Nearest-neighbor Captioning with HypothesisAugmeNTation (ENCHANT) の提案■ 大規模言語モデルによる生成文を用いてデータを拡張■ 主要な評価尺度において、ベースライン手法を上回る結果を獲得33
Appendix 損失関数:交差エントロピーおよびInfoNCE損失を使用■ 損失関数■ 𝐿 = 𝜆𝐶𝐸𝐿𝐶𝐸+ 𝜆𝑁𝐶𝐸𝐿𝑁𝐶𝐸𝐿𝐶𝐸= CE(𝑦𝑡+1, 𝑝 ො𝑦𝑡+1) : 交差エントロピー損失𝐿𝑁𝐶𝐸= infoNCE(𝒉𝑖𝑚𝑔, 𝒉𝑡𝑥𝑡) : infoNCE損失 [Radford+, ICML21]34