Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI23] Nearest Neighbor Future Captioning: Ge...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

[JSAI23] Nearest Neighbor Future Captioning: Generating Descriptions for Possible Collisions in Object Placement Tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 1 Nearest Neighbor Future Captioning: 物䜓配眮タスクにおける衝突リスクに 関する説明文生成 小束 拓実1, 神原元就1,

    ç•‘äž­é§¿å¹³1, 束尟怿倏1, 平川翌2, 山䞋隆矩2, 藀吉匘亘2, 杉浊孔明1 1. 慶應矩塟倧孊 2. 䞭郚倧孊
  2. 背景 : 生掻支揎ロボットは安党に物䜓を配眮するこずが求められる n 生掻支揎ロボット – 芁支揎者の解決策ずしお泚目 – 基本動䜜の䞀぀に物䜓配眮 2

    タスク実行前に危険性を予枬し ナヌザに刀断を仰ぐ機胜は安党性を高める 䟋) 把持䞭のルヌビックキュヌブが 醀油瓶ず激しく衝突する
  3. n タスク: future captioning – 時刻𝑡の画像から𝑡+𝑘の説明文を生成する 問題蚭定 : 物䜓配眮時の危険性に関する説明文生成 3

    n 入力 – 察象物䜓および配眮領域の画像 n 出力 – 物䜓配眮時に起こる危険性の説明文 䟋) 把持䞭のペットボトルがりんごに衝突する 配眮領域 察象物䜓
  4. 関連研究 : タスク実行前に衝突を予枬し説明するこずは困難 4 SAM RFCM PonNet[Magassouba+, AR21] Attention Branch

    Network (ABN) [Fukui+, CVPR19] を 甚いお物䜓同士の衝突確率を予枬 RFCM[Kambara+, ICIP21] RSA Encoder導入し物䜓配眮時の衝突におけるfuture captining タスクに取り組んだ手法 NNLM[Uravashi+, ICLR20] k近傍法を甚いお蚀語モデルの衚珟力を拡匵した手法 SAM[Kirillov+, 23] Prompt゚ンコヌダの導入により、Zero-shotでのセグメンテヌションを 行う基盀モデルを提案 NNLM
  5. 既存手法の問題点 : 衝突盎前の画像を甚いる • RFCM[kambara+, ICIP21] 入力: 時刻t-kから時刻𝑡の画像 出力: 時刻t+1に発生する

    危険性の説明文 L 説明文生成時にはナヌザに刀断を仰ぐ 時間的䜙裕が残っおいない 5 ・・・ 入力 t-k t RFCM The robot hits the plastid bottle because the robot tried to put a red bottle on it. 出力 説明文生成時は 衝突の盎前
  6. n 新芏性 n 衝突予枬における泚目領域を匷調するCollision Attention Moduleの導入 n 察象物䜓ず配眮領域の関係性をモデル化するCross Attentional Image

    Encoderを導入 n NNLM[Uravashi+, ICLR21]をマルチモヌダル蚀語生成に導入 提案手法: Nearest Neighbor Future Captioning Model (NNFCM) 6 タスク実行前の 画像のみを入力
  7. n Cross Attentional Multimodal Decoder n Nearest Neighbor Captioning Module

    n Collision Attention Module n Cross Attentional Image Encoder モデル抂芁: RFCMをベヌスずした4぀のモゞュヌルから構成 7
  8. n PonNet[Magassouba+, AR21]を拡匵 n Collision Prediction Branch -- 衝突予想を行う n

    Attention Branch -- attention mapを生成 Collision Attention Module: 衝突予枬に察するattention mapを生成 8 n attention map -- 各画玠の重芁床を可芖化した画像
  9. n 入力 察象物䜓, 配眮領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物䜓怜出噚で怜出した障害物 : 𝒙()'!

    * Collision Attention Module: 入力 9 n 出力 衝突予枬確率 : 𝑝(8 𝑊+(,) attention map : 𝒙"!!
  10. n 入力 察象物䜓, 配眮領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物䜓怜出噚で怜出した障害物 : 𝒙()'!

    * Collision Attention Module: 出力 10 n 出力 衝突予枬確率 : 𝑝(8 𝑊+(,) attention map : 𝒙"!!
  11. Cross Attentional Image Encoder: 察象物䜓ず配眮領域の関係をモデル化 n 察象物䜓ず配眮領域の 関係性をモデル化する n 構造

    Cross Attention Layer および Self Attention Layer から構成 n Cross Attention 機構 11 ※ 𝑋! = 𝑋" の時、SelfAttenずなる
  12. n 入力 𝒙789: の画像特城量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特城量: 𝒉;<=7,

    𝒉>?=7 𝒊 Cross Attentional Image Encoder: 入力 12 n 出力 𝒉BCDE = 𝒉789: F , 𝒉;<=7 F , 𝒉F >?=7 = {𝒉@G:, 𝒉>?=7 F }
  13. n 入力 𝒙789: の画像特城量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特城量: 𝒉;<=7,

    𝒉>?=7 𝒊 Cross Attentional Image Encoder: 出力 13 n 出力 𝒉BCDE = 𝒉789: F , 𝒉;<=7 F , 𝒉F >?=7 = {𝒉@G:, 𝒉>?=7 F }
  14. Cross Attentional Multimodal Decoder: 予枬を行う n 画像ず蚀語のマルチモヌダル特城量から 予枬確率を出力 n Transformer

    Encoder トヌクン8 y-:! をEmbeddingした 特城量𝒉!/! から𝒉012 を抜出 n Cross Attentional Multimodal Decoder Cross Attention構造を䜿甚しお予枬 𝑋3 = 𝒉012, 𝑋4 = 𝒉5067 14 𝒑(# 𝒚𝒕"𝟏 )
  15. Nearest Neighbor Captioning Module: モデル出力のrescoreを行う n NNLM Urvashi, ICLR20 をベヌスにしたモゞュヌル

    n k近傍法を甚いおモデルの出力のrescoreを行う n プロセス I. å­Šç¿’ : ベヌスずなるモデルの孊習を行う II. Datastoreの構築 III. Inquire & Aggregate IV. Rescore 17
  16. NNFCM ~Datastoreの構築~: 孊習枈みモデルを䜿甚し、(Key, Value) を保存 n Datastoreの構築 孊習集合における党サンプルに察する (Key, Value)

    = (朜圚衚珟, 予枬倀)を党お保存 18 {(𝑧@,7 6 𝑊@,7JK ) | 𝑖 = 1, 
 , 𝑁, 𝑡 = 1, 
 , 𝑇 − 1} 𝑧!,# : 𝑊!,$:# に察応するDecoder内の朜圚衚珟 𝑁: 孊習集合のサンプル数 𝑇: i番目のサンプルの系列長さ
  17. n Inquire & Aggregate 掚論時𝒛7 をKeyずしおDataStoreより 𝑘近傍𝑁を取埗し以䞋を蚈算 𝑝UVV 𝒚7JK =

    1 𝑍 𝑉Fsoftmax(𝑘;@=7 ) n Rescore 最終的な出力を以䞋で蚈算 𝑝7>78I 6 𝑊7JK = 𝜆𝑝 6 𝑊7JK + 1 − 𝜆 𝑝UVV(6 𝑊7JK) NNFCM ~Inquire&Aggregate~: k近傍法を利甚しお最近傍Nより確率を蚈算 19 𝑘&!'# = {d 𝐀( , 𝐳) } 𝑉′は𝑣$ をone-hot化しお䞊べたもの Rescore
  18. n 損倱関数 n 𝐿 = 𝜆GH 𝐿GH + 𝜆IGH 𝐿IGH

    損倱関数: クロス゚ントロピヌ損倱およびInfoNCE損倱を䜿甚 20 i. 𝐿\] = CE(𝑊7JK , 𝑝 6 𝑊7JK ) : 亀差゚ントロピヌ損倱 ii. 𝐿^\] = InfoNCE(𝐡BCD , 𝐡_`_ ) : InfoNCE損倱[Radford+, ICML21] 𝐿589:;<= = −log( exp 𝑠𝑖𝑚 𝑞, 𝑘> 𝜏 exp 𝑠𝑖𝑚 𝑞, 𝑘> 𝜏 + ∑*?@ A exp 𝑠𝑖𝑚 𝑞, 𝑘* 𝜏 ) n InfoNCE損倱 画像に適した蚀語特城 量の取埗が可胜
  19. 実隓蚭定 : BILA-captionデヌタセットを拡匵したBILA-caption 2.0を構築 n BILA-caption 2.0デヌタセット -- 配眮領域のRGBD画像 --

    察象物䜓のRGBD画像 -- 危険性に関する日本語の説明文 21 ※ SIGVerse[Inamura+, 13]を拡匵したシミュレヌション環境を利甚 ※ 配眮方策に基づく配眮を行う 把持䞭の砂糖の容噚ず倒れおいる容噚が衝突する反動で、 アヌムから砂糖の容噚が萜ちる n 孊習集合: 1020 sample, 怜蚌集合: 128 sample, テスト集合: 127 sample
  20. 定量的結果 : 党おの評䟡尺床でベヌスラむンより粟床向䞊 ÃŒ 䞻芁評䟡尺床CIDEr-Dにおいお提案手法はベヌスラむン手法をそれぞれ 18.34ポむントおよび13.41ポむント䞊回った ÃŒ 他の尺床も同様に提案手法がそれぞれベヌスラむン手法を䞊回った 22 手法

    𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐
  21. ÃŒ 䞻芁評䟡尺床CIDEr-Dにおいお提案手法はベヌスラむン手法をそれぞれ 18.34ポむントおよび13.41ポむント䞊回った ÃŒ 他の尺床も同様に提案手法がそれぞれベヌスラむン手法を䞊回った 定量的結果 : 䞻芁な評䟡尺床でベヌスラむンより粟床向䞊 23 手法

    𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟏𝟖. 𝟑𝟖
  22. 定量的結果 : 䞻芁な評䟡尺床でベヌスラむンより粟床向䞊 24 手法 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+,

    ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟏𝟑. 𝟒𝟏 ÃŒ 䞻芁評䟡尺床CIDEr-Dにおいお提案手法はベヌスラむン手法をそれぞれ 18.34ポむントおよび13.41ポむント䞊回った ÃŒ 他の尺床も同様に提案手法がそれぞれベヌスラむン手法を䞊回った
  23. ÃŒ 䞻芁評䟡尺床CIDEr-Dにおいお提案手法はベヌスラむン手法をそれぞれ 18.34ポむントおよび13.41ポむント䞊回った ÃŒ 他の尺床も同様に提案手法がそれぞれベヌスラむン手法を䞊回った 定量的結果 : 䞻芁な評䟡尺床でベヌスラむンより粟床向䞊 25 手法

    𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟐. 𝟎𝟔 +𝟐. 𝟖𝟒 +𝟐. 𝟏𝟏
  24. 定性的結果 : 衝突する物䜓を正しく衚珟できおいる 26 正解文 把持䞭のペットボトルをおもちゃの朚の車の䞊に配眮しようずしお、 うたく眮けずにペットボトルが倒れる SAT[Xu+ ICML15] おもちゃの朚の車がアヌムず衝突する

    RFCM[Kambara+, ICIP21] 把持しおいる空のペットボトルを哺乳瓶の䞊に配眮しようずしお倒れる 提案手法 把持䞭のペットボトルをおもちゃの朚の車の䞊に配眮しようずしお、う たく眮けずに倒れる 配眮領域 察象物䜓 attention map 衝突する物䜓が 䞍適切 泚目領域が適切
  25. 定性的結果 : 発生する危険性および衝突する物䜓を誀っお蚘述した 27 配眮領域 Depth画像に察する Attention map 正解文 くたのぬいぐるみずアヌムが衝突する

    提案手法 把持しおいる青いたばこの箱をカメラの䞊に配眮しようずしお、 うたく眮けずにたばこの箱が倒れる 醀油瓶に 泚目しおいる
  26. Ablation Study : 各モゞュヌルの有効性を確認 ÃŒ CAIE(Cross Attentional Image Encoder)におけるCross-Attention構造 の圱響が最も倧きい

    28 𝐚𝐛𝐥𝐚𝐭𝐢𝐚𝐧条件 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 w/o NNCM 59.57 ± 4.48 21.23 ± 0.42 31.14 ± 0.58 𝟏𝟒. 𝟐𝟔 ± 0.72 w/o CAM 56.94 ± 5.47 20.77 ± 0.88 30.69 ± 0.71 13.61 ± 0.88 w/o CAIE 54.68 ± 3.95 20.58 ± 1.05 30.58 ± 0.55 13.43 ± 0.43 Ours 𝟔𝟏. 𝟎𝟔 ± 𝟑. 𝟏𝟓 𝟐𝟏. 𝟑𝟏 ± 𝟎. 𝟑𝟕 𝟑𝟏. 𝟒𝟎 ± 𝟎. 𝟐𝟒 𝟏𝟒. 𝟐𝟔 ± 𝟎. 𝟐𝟑
  27. たずめ : n 背景 -- 生掻支揎ロボットを甚いお物䜓配眮では事前に危険性を予枬し ナヌザに刀断を仰ぐ機胜は安党性を高める 29 n 提案手法

    -- NNLMをマルチモヌダル生成に導入 -- 衝突領域を匷調するCAMを導入 -- 察象物䜓ず配眮領域の関係性をモデル化するCAMDを導入 n 結果 -- 䞻芁な評䟡尺床においおベヌスラむン手法を超える性胜を達成
  28. Appendix : Nearest Neighbor Language Model [Uravashi+, ICLR20] 30 孊習集合

    (Obama was senator for, lllinois) (Barack is married to, Michelle) (Obama was born in, Hawaii) 
 (Obama is a native of, Hawaii) 掚論時 (Obama’s birthplace is, ??) 利甚しお出力をrescore
  29. Appendix : NNLM [Uravashi+, ICLR20]をマルチモヌダル生成に適甚 n NNMT [Uravashi+, ICLR21] --

    NNLMを機䌚翻蚳に適甚させた手法 31 𝑝#*#+, b 𝑊#-$ = 𝜆.// 𝑍 𝑉0softmax 𝑑 𝑘( , 𝑧# + 1 − 𝜆.// 𝑝(b 𝑊#-$ |𝑥&1'# , 𝑥#+23 ) n 提案手法 -- NNLMをマルチモヌダル生成に適甚 𝑘近傍法を甚いお蚈算 した距離に基づく確率 画像を甚いお蚈算 した確率
  30. Appendix : 埌続研究 ① クラりドサヌビスによるサンプルの増匷 n デヌタ収集 クラりド゜ヌシングを甚いお 説明文を付䞎 被隓者:

    200人 4000文を収集 32 n 説明文付䞎 䞎えられた動画においお 最も危険性の高い衝突に 関しお蚘述
  31. Appendix : Attention Branch Network [Fukui+, CVPR19] n Attention Branch

    Network ベヌスずなるモデルに䞊列にAttention Branchを远加し、 予枬に察する芖芚的説明を生成する手法 33
  32. Appendix : PonNet[Magassouba+, AR21] n PonNet 物䜓配眮時の 衝突 / 非衝突

    を予枬 「衝突」ず予枬した際の 泚目領域を可芖化 34