[RSJ23] ENCHANT: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation

平野慎之助1, 小松拓実,1 和田唯我1, 神原元就1, 畑中駿平1, 平川翼2, 山下隆義2, 藤吉弘亘2杉浦孔明1 1慶應義塾大学, 2中部大学
ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成

背景: 生活支援ロボットには安全性が求められる ▪ 生活支援ロボット ▪ 要介助者支援の解決策として注目 ▪ 基本動作の一つに物体配置 ▪ タスク実行前に危険性を予測し、ユーザに
判断を仰ぐ機能は安全性を高める例）バイキンマンのぬいぐるみを置く際にピンクの鳥のぬいぐるみに衝突するリスクがあります 2 2x

問題設定: 物体配置時の衝突に関する説明文生成 3 ▪ タスク: future captioning ▪ 時刻𝑡の画像から時刻𝑡 +
𝑘の説明文を生成する ▪ 入力 ▪ 配置領域および対象物体の画像 ▪ 出力 ▪ 物体配置時に起こる衝突に関する説明文例）ルービックキューブを置こうとしてカメラにルービックキューブが衝突する配置領域対象物体

関連研究: 事前に衝突を予測し説明することは困難 4 手法名内容 CLEVRER [Yi+, ICLR20] 物体同士の衝突に関するデータセットを構築多様な形状の物体に対応していない
Where2Act [Guibas+, ICCV21] 多関節物体の相互作用に焦点を当て、物体操作の成功確率を予測 NNFC [小松+, JSAI23] NNLM [Urvashi+, ICLR21] を導入し、衝突に関する future captioningタスクに取り組んだ手法 CLEVRER Where2Act NNFC

Nearest Neighbor Future Captioning (NNFC) 5 入力 NNLM [Uravashi+, ICLR21]
をマルチモーダル言語生成に導入配置領域の特徴量抽出が不適切であり、生成文の品質が不十分

Nearest Neighbor Future Captioning (NNFC) 6 入力 NNLM [Uravashi+, ICLR21]
をマルチモーダル言語生成に導入配置領域の特徴量抽出が不適切であり、生成文の品質が不十分タスク実行前の画像を入力

Nearest Neighbor Future Captioning (NNFC) 7 NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入
配置領域の特徴量抽出が不適切であり、生成文の品質が不十分 NNLMに基づき、 𝑘近傍法を用いて出力をrescore

Nearest Neighbor Future Captioning (NNFC) 8 NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入
配置領域の特徴量抽出が不適切であり、生成文の品質が不十分

提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest
Neighbor Augmentation Module ▪ 大規模言語モデルによる生成文を用いてデータ拡張を行う ▪ Parallel Cross Attentional Decoder ▪ 画像および言語の特徴抽出を対称的に行う ▪ Segment Feature Extractor ▪ Attention mapとセグメンテーションモデルを用いて特徴量を抽出 9

Segment Feature Extractor: attention map とセグメンテーション画像を重畳 13 配置領域衝突に関する attention
map SAM [Kirillov+] によるセグメンテーション画像 Segment Feature Extractorの出力

Parallel Cross Attentional Decoder: 画像および言語の特徴量から次トークンの予測確率を出力次トークンの予測確率出力 ◼ 3種類のマルチモーダル特徴量
▪ 対象物体の画像特徴量 ▪ 配置領域の画像特徴量 ▪ 障害物の特徴量 ◼ 言語と画像のマルチモーダル特徴量入力 14

Parallel Cross Attentional Decoder: 画像および言語の特徴量から次トークンの予測確率を出力 15 次トークンの予測確率出力 ◼
画像特徴量および言語特徴量を対称的に抽出 ◼ Cross Attention 構造を使用して予測 ◼ 3種類のマルチモーダル特徴量 ▪ 対象物体の画像特徴量 ▪ 配置領域の画像特徴量 ▪ 障害物の特徴量 ◼ 言語と画像のマルチモーダル特徴量入力

Nearest Neighbor Augmentation Module: LLMによる生成文を用いてデータを拡張アームがペットボトルを置こうとして、砂糖の容器に衝突して倒れるアームがペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされる LLM
入力例 LLM 出力例 16 ▪ LLMによるデータ拡張を行わない場合同じ動作を行った際に起こり得る複数の可能性を考慮できない LLMを用いることで、起こる可能性のある事象を含むサンプルを生成後件部を変更するプロンプトを使用

▪ Inquire & Aggregate ▪ Datastore: LLMを用いてデータを拡張した訓練集合の潜在表現を事前に格納 ▪ 潜在表現に対して、Datastoreより𝑘近傍𝑁を
取得し、次トークンの予測確率𝑝knn ො 𝑦𝑡+1 を計算 ▪ rescore ▪ 最終的な出力を以下で計算 𝑝total ො 𝑦𝑡+1 = 𝜆𝑝 ො 𝑦𝑡+1 + (1 − 𝜆)𝑝knn ො 𝑦𝑡+1 Nearest Neighbor Augmentation Module: 𝒌近傍法を用いてdecoder の出力をrescore 17 decoder の出力

実験設定: クラウドソーシングでアノテーションを行った BILA-caption 3.0を構築 ▪ BILA-caption 3.0 データセット ▪ 配置領域のRGBD画像
▪ 対象物体のRGBD画像 ▪ 危険性に関する日本語の説明文 ▪ 4,042サンプル ▪ train: valid: test = 3185: 363: 494 アノテート例：ケチャップの容器を机の上に置こうとして、醤油瓶に衝突し、ケチャップの容器が倒れる 18 ※SIGVerse [Inamura+, 13] を拡張したシミュレーション環境を利用 2x

定量的結果: すべての評価尺度で精度向上 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った手法
JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37± 0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 19

手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±
0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 + 2.96 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 20

0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 + 2.96 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 21 日本語における人間による評価との相関が他の自動評価尺度と比較して最も高い

0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 22

定性的結果(成功例): 衝突物体を正しく表現配置領域対称物体正解文アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突する NNFC [小松+,JSAI23] アームがルービックキューブを机の上に置こうとしたが、おこうとした場所
にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く 23 2x

正解文アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突する NNFC [小松+,JSAI23] アームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く
定性的結果(成功例): 衝突物体を正しく表現配置領域対称物体 24 2x 衝突物体が不適切

正解文アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突する NNFC [小松+,JSAI23] アームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れる Ours アームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く
定性的結果(成功例): 衝突物体を正しく表現配置領域対称物体 25 衝突物体に関して適切に記述 2x

Ablation Study: 各モジュールの有効性を確認 ▪ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい Ablation 条件 JaSPICE BLEU4 METEOR
ROUGE-L CIDEr-D w/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60 w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20 w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 26

Ablation Study: 各モジュールの有効性を確認 ▪ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい Ablation 条件 JaSPICE BLEU4 METEOR
ROUGE-L CIDEr-D w/o NNAM 21.40±0.67 25.31±0.96 28.90±0.47 45.34±0.65 37.48±2.60 w/o PCAD 21.60±0.78 24.71±1.00 29.05±0.14 45.27±0.56 37.95±2.20 w/o SAB 21.61±0.39 25.13±1.13 29.20±0.35 45.49±0.77 38.03±2.69 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 27

定性的結果(失敗例): 障害物名の生成誤り 28 正解文アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+, JSAI23] アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動でペットボトルが少し動く
Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少し机の上から落下した配置領域 2x attention map

定性的結果(失敗例): 障害物名の生成誤り配置領域 attention map 29 正解文アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+,
JSAI23] アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動でペットボトルが少し動く Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少し机の上から落下した衝突物体が不適切衝突物体が不適切 2x

定性的結果(失敗例): 障害物名の生成誤り配置領域 attention map 30 正解文アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+,
JSAI23] アームがリンゴを棚に置くとき、アームとペットボトルが衝突し、その反動でペットボトルが少し動く Ours アームがリンゴを机の上のペットボトルにぶつけた反動でペットボトルが少し机の上から落下した 2x 注目領域が不適切

エラー分析: 衝突に関連する物体の特定に失敗 31 エラーID 説明サンプル数 OCE 衝突に関連する障害物に関する記述誤り 25 SE
深刻な記述誤り 6 Others その他 4 合計 - 35 ▪ JaSPICEによる評価が15未満のサンプルを分析 ▪ 衝突に関連する障害物に関する記述誤りが主要因

エラー分析: 衝突に関連する物体の特定に失敗 32 エラーID 説明サンプル数 OCE 衝突に関連する障害物に関する記述誤り 25 SE
深刻な記述誤り 6 Others その他 4 合計 - 35 ▪ JaSPICEによる評価が15未満のサンプルを分析 ▪ 衝突に関連する障害物に関する記述誤りが主要因

まとめ ▪ Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) の提案
▪ 大規模言語モデルによる生成文を用いてデータを拡張 ▪ 主要な評価尺度において、ベースライン手法を上回る結果を獲得 33

Appendix 損失関数: 交差エントロピーおよびInfoNCE損失を使用 ▪ 損失関数 ▪ 𝐿 = 𝜆𝐶𝐸 𝐿𝐶𝐸
+ 𝜆𝑁𝐶𝐸 𝐿𝑁𝐶𝐸 𝐿𝐶𝐸 = CE(𝑦𝑡+1 , 𝑝 ො 𝑦𝑡+1 ) : 交差エントロピー損失 𝐿𝑁𝐶𝐸 = infoNCE(𝒉𝑖𝑚𝑔 , 𝒉𝑡𝑥𝑡 ) : infoNCE損失 [Radford+, ICML21] 34

[RSJ23] ENCHANT: Enhanced Nearest-neighbor Capt...

[RSJ23] ENCHANT: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

平野慎之助1, 小松拓実,1 和田唯我1, 神原元就1, 畑中駿平1, 平川翼2, 山下隆義2, 藤吉弘亘2杉浦孔明1 1慶應義塾大学, 2中部大学

背景: 生活支援ロボットには安全性が求められる ▪ 生活支援ロボット ▪ 要介助者支援の解決策として注目 ▪ 基本動作の一つに物体配置 ▪ タスク実行前に危険性を予測し、ユーザに

問題設定: 物体配置時の衝突に関する説明文生成 3 ▪ タスク: future captioning ▪ 時刻𝑡の画像から時刻𝑡 +

関連研究: 事前に衝突を予測し説明することは困難 4 手法名内容 CLEVRER [Yi+, ICLR20] 物体同士の衝突に関するデータセットを構築多様な形状の物体に対応していない

Nearest Neighbor Future Captioning (NNFC) 5 入力 NNLM [Uravashi+, ICLR21]

Nearest Neighbor Future Captioning (NNFC) 6 入力 NNLM [Uravashi+, ICLR21]

Nearest Neighbor Future Captioning (NNFC) 7 NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入

Nearest Neighbor Future Captioning (NNFC) 8 NNLM [Uravashi+, ICLR21] をマルチモーダル言語生成に導入

提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

提案手法: Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) ▪ Nearest

Segment Feature Extractor: attention map とセグメンテーション画像を重畳 13 配置領域衝突に関する attention

Parallel Cross Attentional Decoder: 画像および言語の特徴量から次トークンの予測確率を出力次トークンの予測確率出力 ◼ 3種類のマルチモーダル特徴量

Parallel Cross Attentional Decoder: 画像および言語の特徴量から次トークンの予測確率を出力 15 次トークンの予測確率出力 ◼

Nearest Neighbor Augmentation Module: LLMによる生成文を用いてデータを拡張アームがペットボトルを置こうとして、砂糖の容器に衝突して倒れるアームがペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされる LLM

▪ Inquire & Aggregate ▪ Datastore: LLMを用いてデータを拡張した訓練集合の潜在表現を事前に格納 ▪ 潜在表現に対して、Datastoreより𝑘近傍𝑁を

実験設定: クラウドソーシングでアノテーションを行った BILA-caption 3.0を構築 ▪ BILA-caption 3.0 データセット ▪ 配置領域のRGBD画像

定量的結果: すべての評価尺度で精度向上 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った手法

手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±

手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±

手法 JaSPICE BLEU4 METEOR ROUGE-L CIDEr-D NNFC [小松+, JSAI23] 19.37±

Ablation Study: 各モジュールの有効性を確認 ▪ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい Ablation 条件 JaSPICE BLEU4 METEOR

Ablation Study: 各モジュールの有効性を確認 ▪ LLMによるデータ拡張が提案手法の性能へ影響が最も大きい Ablation 条件 JaSPICE BLEU4 METEOR

定性的結果(失敗例): 障害物名の生成誤り配置領域 attention map 29 正解文アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+,

定性的結果(失敗例): 障害物名の生成誤り配置領域 attention map 30 正解文アームがつかんだりんごを、机の上にある倒れた砂時計にぶつけながら置く NNFC [小松+,

エラー分析: 衝突に関連する物体の特定に失敗 31 エラーID 説明サンプル数 OCE 衝突に関連する障害物に関する記述誤り 25 SE

エラー分析: 衝突に関連する物体の特定に失敗 32 エラーID 説明サンプル数 OCE 衝突に関連する障害物に関する記述誤り 25 SE

まとめ ▪ Enhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT) の提案

Appendix 損失関数: 交差エントロピーおよびInfoNCE損失を使用 ▪ 損失関数 ▪ 𝐿 = 𝜆𝐶𝐸 𝐿𝐶𝐸