Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI23] Nearest Neighbor Future Captioning: Ge...

[JSAI23] Nearest Neighbor Future Captioning: Generating Descriptions for Possible Collisions in Object Placement Tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 1 Nearest Neighbor Future Captioning: 物体配置タスクにおける衝突リスクに 関する説明文生成 小松 拓実1, 神原元就1,

    畑中駿平1, 松尾椿夏1, 平川翼2, 山下隆義2, 藤吉弘亘2, 杉浦孔明1 1. 慶應義塾大学 2. 中部大学
  2. 背景 : 生活支援ロボットは安全に物体を配置することが求められる n 生活支援ロボット – 要支援者の解決策として注目 – 基本動作の一つに物体配置 2

    タスク実行前に危険性を予測し, ユーザに判断を仰ぐ機能は安全性を高める 例) 把持中のルービックキューブが 醤油瓶と激しく衝突する.
  3. n タスク: future captioning – 時刻𝑡の画像から𝑡+𝑘の説明文を生成する 問題設定 : 物体配置時の危険性に関する説明文生成 3

    n 入力 – 対象物体および配置領域の画像 n 出力 – 物体配置時に起こる危険性の説明文 例) 把持中のペットボトルがりんごに衝突する. 配置領域 対象物体
  4. 関連研究 : タスク実行前に衝突を予測し説明することは困難 4 SAM RFCM PonNet[Magassouba+, AR21] Attention Branch

    Network (ABN) [Fukui+, CVPR19] を 用いて物体同士の衝突確率を予測 RFCM[Kambara+, ICIP21] RSA Encoder導入し,物体配置時の衝突におけるfuture captining タスクに取り組んだ手法 NNLM[Uravashi+, ICLR20] k近傍法を用いて言語モデルの表現力を拡張した手法 SAM[Kirillov+, 23] Promptエンコーダの導入により、Zero-shotでのセグメンテーションを 行う基盤モデルを提案 NNLM
  5. 既存手法の問題点 : 衝突直前の画像を用いる • RFCM[kambara+, ICIP21] 入力: 時刻t-kから時刻𝑡の画像 出力: 時刻t+1に発生する

    危険性の説明文 L 説明文生成時には,ユーザに判断を仰ぐ 時間的余裕が残っていない 5 ・・・ 入力 t-k t RFCM The robot hits the plastid bottle because the robot tried to put a red bottle on it. 出力 説明文生成時は 衝突の直前
  6. n 新規性 n 衝突予測における注目領域を強調するCollision Attention Moduleの導入 n 対象物体と配置領域の関係性をモデル化するCross Attentional Image

    Encoderを導入 n NNLM[Uravashi+, ICLR21]をマルチモーダル言語生成に導入 提案手法: Nearest Neighbor Future Captioning Model (NNFCM) 6 タスク実行前の 画像のみを入力
  7. n Cross Attentional Multimodal Decoder n Nearest Neighbor Captioning Module

    n Collision Attention Module n Cross Attentional Image Encoder モデル概要: RFCMをベースとした4つのモジュールから構成 7
  8. n PonNet[Magassouba+, AR21]を拡張 n Collision Prediction Branch -- 衝突予想を行う n

    Attention Branch -- attention mapを生成 Collision Attention Module: 衝突予測に対するattention mapを生成 8 n attention map -- 各画素の重要度を可視化した画像
  9. n 入力 対象物体, 配置領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物体検出器で検出した障害物 : 𝒙()'!

    * Collision Attention Module: 入力 9 n 出力 衝突予測確率 : 𝑝(8 𝑦+(,) attention map : 𝒙"!!
  10. n 入力 対象物体, 配置領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物体検出器で検出した障害物 : 𝒙()'!

    * Collision Attention Module: 出力 10 n 出力 衝突予測確率 : 𝑝(8 𝑦+(,) attention map : 𝒙"!!
  11. Cross Attentional Image Encoder: 対象物体と配置領域の関係をモデル化 n 対象物体と配置領域の 関係性をモデル化する n 構造

    Cross Attention Layer および Self Attention Layer から構成 n Cross Attention 機構 11 ※ 𝑋! = 𝑋" の時、SelfAttenとなる
  12. n 入力 𝒙789: の画像特徴量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特徴量: 𝒉;<=7,

    𝒉>?=7 𝒊 Cross Attentional Image Encoder: 入力 12 n 出力 𝒉BCDE = 𝒉789: F , 𝒉;<=7 F , 𝒉F >?=7 = {𝒉@G:, 𝒉>?=7 F }
  13. n 入力 𝒙789: の画像特徴量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特徴量: 𝒉;<=7,

    𝒉>?=7 𝒊 Cross Attentional Image Encoder: 出力 13 n 出力 𝒉BCDE = 𝒉789: F , 𝒉;<=7 F , 𝒉F >?=7 = {𝒉@G:, 𝒉>?=7 F }
  14. Cross Attentional Multimodal Decoder: 予測を行う n 画像と言語のマルチモーダル特徴量から 予測確率を出力 n Transformer

    Encoder トークン8 y-:! をEmbeddingした 特徴量𝒉!/! から𝒉012 を抽出 n Cross Attentional Multimodal Decoder Cross Attention構造を使用して予測 𝑋3 = 𝒉012, 𝑋4 = 𝒉5067 14 𝒑(# 𝒚𝒕"𝟏 )
  15. Nearest Neighbor Captioning Module: モデル出力のrescoreを行う n NNLM Urvashi, ICLR20 をベースにしたモジュール

    n k近傍法を用いてモデルの出力のrescoreを行う n プロセス I. 学習 : ベースとなるモデルの学習を行う II. Datastoreの構築 III. Inquire & Aggregate IV. Rescore 17
  16. NNFCM ~Datastoreの構築~: 学習済みモデルを使用し、(Key, Value) を保存 n Datastoreの構築 学習集合における全サンプルに対する (Key, Value)

    = (潜在表現, 予測値)を全て保存. 18 {(𝑧@,7 6 𝑦@,7JK ) | 𝑖 = 1, … , 𝑁, 𝑡 = 1, … , 𝑇 − 1} 𝑧!,# : 𝑦!,$:# に対応するDecoder内の潜在表現 𝑁: 学習集合のサンプル数 𝑇: i番目のサンプルの系列長さ
  17. n Inquire & Aggregate 推論時,𝒛7 をKeyとしてDataStoreより 𝑘近傍𝑁を取得し,以下を計算 𝑝UVV 𝒚7JK =

    1 𝑍 𝑉Fsoftmax(𝑘;@=7 ) n Rescore 最終的な出力を以下で計算 𝑝7>78I 6 𝑦7JK = 𝜆𝑝 6 𝑦7JK + 1 − 𝜆 𝑝UVV(6 𝑦7JK) NNFCM ~Inquire&Aggregate~: k近傍法を利用して最近傍Nより確率を計算 19 𝑘&!'# = {d 𝐤( , 𝐳) } 𝑉′は𝑣$ をone-hot化して並べたもの Rescore
  18. n 損失関数 n 𝐿 = 𝜆GH 𝐿GH + 𝜆IGH 𝐿IGH

    損失関数: クロスエントロピー損失およびInfoNCE損失を使用 20 i. 𝐿\] = CE(𝑦7JK , 𝑝 6 𝑦7JK ) : 交差エントロピー損失 ii. 𝐿^\] = InfoNCE(𝐡BCD , 𝐡_`_ ) : InfoNCE損失[Radford+, ICML21] 𝐿589:;<= = −log( exp 𝑠𝑖𝑚 𝑞, 𝑘> 𝜏 exp 𝑠𝑖𝑚 𝑞, 𝑘> 𝜏 + ∑*?@ A exp 𝑠𝑖𝑚 𝑞, 𝑘* 𝜏 ) n InfoNCE損失 画像に適した言語特徴 量の取得が可能
  19. 実験設定 : BILA-captionデータセットを拡張したBILA-caption 2.0を構築 n BILA-caption 2.0データセット -- 配置領域のRGBD画像 --

    対象物体のRGBD画像 -- 危険性に関する日本語の説明文 21 ※ SIGVerse[Inamura+, 13]を拡張したシミュレーション環境を利用 ※ 配置方策に基づく配置を行う 把持中の砂糖の容器と倒れている容器が衝突する反動で、 アームから砂糖の容器が落ちる n 学習集合: 1020 sample, 検証集合: 128 sample, テスト集合: 127 sample
  20. 定量的結果 : 全ての評価尺度でベースラインより精度向上 ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った. ü 他の尺度も同様に,提案手法がそれぞれベースライン手法を上回った 22 手法

    𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐
  21. ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った. ü 他の尺度も同様に,提案手法がそれぞれベースライン手法を上回った 定量的結果 : 主要な評価尺度でベースラインより精度向上 23 手法

    𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟏𝟖. 𝟑𝟖
  22. 定量的結果 : 主要な評価尺度でベースラインより精度向上 24 手法 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+,

    ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟏𝟑. 𝟒𝟏 ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った. ü 他の尺度も同様に,提案手法がそれぞれベースライン手法を上回った
  23. ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った. ü 他の尺度も同様に,提案手法がそれぞれベースライン手法を上回った 定量的結果 : 主要な評価尺度でベースラインより精度向上 25 手法

    𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟐. 𝟎𝟔 +𝟐. 𝟖𝟒 +𝟐. 𝟏𝟏
  24. 定性的結果 : 衝突する物体を正しく表現できている 26 正解文 把持中のペットボトルをおもちゃの木の車の上に配置しようとして、 うまく置けずにペットボトルが倒れる SAT[Xu+ ICML15] おもちゃの木の車がアームと衝突する

    RFCM[Kambara+, ICIP21] 把持している空のペットボトルを哺乳瓶の上に配置しようとして倒れる 提案手法 把持中のペットボトルをおもちゃの木の車の上に配置しようとして、う まく置けずに倒れる 配置領域 対象物体 attention map 衝突する物体が 不適切 注目領域が適切
  25. 定性的結果 : 発生する危険性および衝突する物体を誤って記述した 27 配置領域 Depth画像に対する Attention map 正解文 くまのぬいぐるみとアームが衝突する

    提案手法 把持している青いたばこの箱をカメラの上に配置しようとして、 うまく置けずにたばこの箱が倒れる 醤油瓶に 注目している
  26. Ablation Study : 各モジュールの有効性を確認 ü CAIE(Cross Attentional Image Encoder)におけるCross-Attention構造 の影響が最も大きい

    28 𝐚𝐛𝐥𝐚𝐭𝐢𝐨𝐧条件 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 w/o NNCM 59.57 ± 4.48 21.23 ± 0.42 31.14 ± 0.58 𝟏𝟒. 𝟐𝟔 ± 0.72 w/o CAM 56.94 ± 5.47 20.77 ± 0.88 30.69 ± 0.71 13.61 ± 0.88 w/o CAIE 54.68 ± 3.95 20.58 ± 1.05 30.58 ± 0.55 13.43 ± 0.43 Ours 𝟔𝟏. 𝟎𝟔 ± 𝟑. 𝟏𝟓 𝟐𝟏. 𝟑𝟏 ± 𝟎. 𝟑𝟕 𝟑𝟏. 𝟒𝟎 ± 𝟎. 𝟐𝟒 𝟏𝟒. 𝟐𝟔 ± 𝟎. 𝟐𝟑
  27. まとめ : n 背景 -- 生活支援ロボットを用いて物体配置では,事前に危険性を予測し, ユーザに判断を仰ぐ機能は安全性を高める 29 n 提案手法

    -- NNLMをマルチモーダル生成に導入 -- 衝突領域を強調するCAMを導入 -- 対象物体と配置領域の関係性をモデル化するCAMDを導入 n 結果 -- 主要な評価尺度において,ベースライン手法を超える性能を達成
  28. Appendix : Nearest Neighbor Language Model [Uravashi+, ICLR20] 30 学習集合

    (Obama was senator for, lllinois) (Barack is married to, Michelle) (Obama was born in, Hawaii) … (Obama is a native of, Hawaii) 推論時 (Obama’s birthplace is, ??) 利用して出力をrescore
  29. Appendix : NNLM [Uravashi+, ICLR20]をマルチモーダル生成に適用 n NNMT [Uravashi+, ICLR21] --

    NNLMを機会翻訳に適用させた手法 31 𝑝#*#+, b 𝑦#-$ = 𝜆.// 𝑍 𝑉0softmax 𝑑 𝑘( , 𝑧# + 1 − 𝜆.// 𝑝(b 𝑦#-$ |𝑥&1'# , 𝑥#+23 ) n 提案手法 -- NNLMをマルチモーダル生成に適用 𝑘近傍法を用いて計算 した距離に基づく確率 画像を用いて計算 した確率
  30. Appendix : 後続研究 ① クラウドサービスによるサンプルの増強 n データ収集 クラウドソーシングを用いて 説明文を付与 被験者:

    200人 4000文を収集 32 n 説明文付与 与えられた動画において 最も危険性の高い衝突に 関して記述
  31. Appendix : Attention Branch Network [Fukui+, CVPR19] n Attention Branch

    Network ベースとなるモデルに並列にAttention Branchを追加し、 予測に対する視覚的説明を生成する手法 33
  32. Appendix : PonNet[Magassouba+, AR21] n PonNet 物体配置時の 衝突 / 非衝突

    を予測 「衝突」と予測した際の 注目領域を可視化 34