[JSAI23] Nearest Neighbor Future Captioning: Generating Descriptions for Possible Collisions in Object Placement Tasks

1 Nearest Neighbor Future Captioning: 物体配置タスクにおける衝突リスクに関する説明文生成小松拓実1, 神原元就1,
畑中駿平1, 松尾椿夏1, 平川翼2, 山下隆義2, 藤吉弘亘2, 杉浦孔明1 1. 慶應義塾大学 2. 中部大学

背景 : 生活支援ロボットは安全に物体を配置することが求められる n 生活支援ロボット – 要支援者の解決策として注目 – 基本動作の一つに物体配置 2
タスク実行前に危険性を予測し，ユーザに判断を仰ぐ機能は安全性を高める例) 把持中のルービックキューブが醤油瓶と激しく衝突する．

n タスク: future captioning – 時刻𝑡の画像から𝑡+𝑘の説明文を生成する問題設定 : 物体配置時の危険性に関する説明文生成 3
n 入力 – 対象物体および配置領域の画像 n 出力 – 物体配置時に起こる危険性の説明文例) 把持中のペットボトルがりんごに衝突する．配置領域対象物体

関連研究 : タスク実行前に衝突を予測し説明することは困難 4 SAM RFCM PonNet[Magassouba+, AR21] Attention Branch
Network (ABN) [Fukui+, CVPR19] を用いて物体同士の衝突確率を予測 RFCM[Kambara+, ICIP21] RSA Encoder導入し，物体配置時の衝突におけるfuture captining タスクに取り組んだ手法 NNLM[Uravashi+, ICLR20] k近傍法を用いて言語モデルの表現力を拡張した手法 SAM[Kirillov+, 23] Promptエンコーダの導入により、Zero-shotでのセグメンテーションを行う基盤モデルを提案 NNLM

既存手法の問題点 : 衝突直前の画像を用いる • RFCM[kambara+, ICIP21] 入力: 時刻t-kから時刻𝑡の画像出力: 時刻t+1に発生する
危険性の説明文 L 説明文生成時には，ユーザに判断を仰ぐ時間的余裕が残っていない 5 ・・・入力 t-k t RFCM The robot hits the plastid bottle because the robot tried to put a red bottle on it. 出力説明文生成時は衝突の直前

n 新規性 n 衝突予測における注目領域を強調するCollision Attention Moduleの導入 n 対象物体と配置領域の関係性をモデル化するCross Attentional Image
Encoderを導入 n NNLM[Uravashi+, ICLR21]をマルチモーダル言語生成に導入提案手法: Nearest Neighbor Future Captioning Model (NNFCM) 6 タスク実行前の画像のみを入力

n Cross Attentional Multimodal Decoder n Nearest Neighbor Captioning Module
n Collision Attention Module n Cross Attentional Image Encoder モデル概要: RFCMをベースとした4つのモジュールから構成 7

n PonNet[Magassouba+, AR21]を拡張 n Collision Prediction Branch -- 衝突予想を行う n
Attention Branch -- attention mapを生成 Collision Attention Module: 衝突予測に対するattention mapを生成 8 n attention map -- 各画素の重要度を可視化した画像

n 入力対象物体, 配置領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物体検出器で検出した障害物 : 𝒙()'!
* Collision Attention Module: 入力 9 n 出力衝突予測確率 : 𝑝(8 𝑦+(,) attention map : 𝒙"!!

n 入力対象物体, 配置領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物体検出器で検出した障害物 : 𝒙()'!
* Collision Attention Module: 出力 10 n 出力衝突予測確率 : 𝑝(8 𝑦+(,) attention map : 𝒙"!!

Cross Attentional Image Encoder: 対象物体と配置領域の関係をモデル化 n 対象物体と配置領域の関係性をモデル化する n 構造
Cross Attention Layer および Self Attention Layer から構成 n Cross Attention 機構 11 ※ 𝑋! = 𝑋" の時、SelfAttenとなる

n 入力 𝒙789: の画像特徴量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特徴量: 𝒉;<=7,
𝒉>?=7 𝒊 Cross Attentional Image Encoder: 入力 12 n 出力 𝒉BCDE = 𝒉789: F , 𝒉;<=7 F , 𝒉F >?=7 = {𝒉@G:, 𝒉>?=7 F }

n 入力 𝒙789: の画像特徴量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特徴量: 𝒉;<=7,
𝒉>?=7 𝒊 Cross Attentional Image Encoder: 出力 13 n 出力 𝒉BCDE = 𝒉789: F , 𝒉;<=7 F , 𝒉F >?=7 = {𝒉@G:, 𝒉>?=7 F }

Cross Attentional Multimodal Decoder: 予測を行う n 画像と言語のマルチモーダル特徴量から予測確率を出力 n Transformer
Encoder トークン8 y-:! をEmbeddingした特徴量𝒉!/! から𝒉012 を抽出 n Cross Attentional Multimodal Decoder Cross Attention構造を使用して予測 𝑋3 = 𝒉012, 𝑋4 = 𝒉5067 14 𝒑(# 𝒚𝒕"𝟏 )

n 入力画像特徴量: 𝒉@G:= マルチモーダル特徴量: 𝒉GHI Cross Attentional Multimodal Decoder:
入力 15 n 出力予測確率:𝑝(2 𝒚7JK )

n 入力画像特徴量: 𝒉@G:= マルチモーダル特徴量: 𝒉GHI Cross Attentional Multimodal Decoder:
出力 16 n 出力予測確率:𝑝(2 𝒚7JK )

Nearest Neighbor Captioning Module: モデル出力のrescoreを行う n NNLM Urvashi, ICLR20 をベースにしたモジュール
n k近傍法を用いてモデルの出力のrescoreを行う n プロセス I. 学習 : ベースとなるモデルの学習を行う II. Datastoreの構築 III. Inquire & Aggregate IV. Rescore 17

NNFCM ~Datastoreの構築~: 学習済みモデルを使用し、(Key, Value) を保存 n Datastoreの構築学習集合における全サンプルに対する (Key, Value)
= (潜在表現, 予測値)を全て保存． 18 {(𝑧@,7 6 𝑦@,7JK ) | 𝑖 = 1, … , 𝑁, 𝑡 = 1, … , 𝑇 − 1} 𝑧!,# : 𝑦!,$:# に対応するDecoder内の潜在表現 𝑁: 学習集合のサンプル数 𝑇: i番目のサンプルの系列長さ

n Inquire & Aggregate 推論時，𝒛7 をKeyとしてDataStoreより 𝑘近傍𝑁を取得し，以下を計算 𝑝UVV 𝒚7JK =
1 𝑍 𝑉Fsoftmax(𝑘;@=7 ) n Rescore 最終的な出力を以下で計算 𝑝7>78I 6 𝑦7JK = 𝜆𝑝 6 𝑦7JK + 1 − 𝜆 𝑝UVV(6 𝑦7JK) NNFCM ~Inquire&Aggregate~: k近傍法を利用して最近傍Nより確率を計算 19 𝑘&!'# = {d 𝐤( , 𝐳) } 𝑉′は𝑣$ をone-hot化して並べたもの Rescore

n 損失関数 n 𝐿 = 𝜆GH 𝐿GH + 𝜆IGH 𝐿IGH
損失関数: クロスエントロピー損失およびInfoNCE損失を使用 20 i. 𝐿\] = CE(𝑦7JK , 𝑝 6 𝑦7JK ) : 交差エントロピー損失 ii. 𝐿^\] = InfoNCE(𝐡BCD , 𝐡_`_ ) : InfoNCE損失[Radford+, ICML21] 𝐿589:;<= = −log( exp 𝑠𝑖𝑚 𝑞, 𝑘> 𝜏 exp 𝑠𝑖𝑚 𝑞, 𝑘> 𝜏 + ∑*?@ A exp 𝑠𝑖𝑚 𝑞, 𝑘* 𝜏 ) n InfoNCE損失画像に適した言語特徴量の取得が可能

実験設定 : BILA-captionデータセットを拡張したBILA-caption 2.0を構築 n BILA-caption 2.0データセット -- 配置領域のRGBD画像 --
対象物体のRGBD画像 -- 危険性に関する日本語の説明文 21 ※ SIGVerse[Inamura+, 13]を拡張したシミュレーション環境を利用 ※ 配置方策に基づく配置を行う把持中の砂糖の容器と倒れている容器が衝突する反動で、アームから砂糖の容器が落ちる n 学習集合: 1020 sample, 検証集合: 128 sample, テスト集合: 127 sample

定量的結果 : 全ての評価尺度でベースラインより精度向上 ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った． ü 他の尺度も同様に，提案手法がそれぞれベースライン手法を上回った 22 手法
𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐

ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った． ü 他の尺度も同様に，提案手法がそれぞれベースライン手法を上回った定量的結果 : 主要な評価尺度でベースラインより精度向上 23 手法
𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟏𝟖. 𝟑𝟖

定量的結果 : 主要な評価尺度でベースラインより精度向上 24 手法 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+,
ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟏𝟑. 𝟒𝟏 ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った． ü 他の尺度も同様に，提案手法がそれぞれベースライン手法を上回った

ü 主要評価尺度CIDEr-Dにおいて提案手法はベースライン手法をそれぞれ 18.34ポイントおよび13.41ポイント上回った． ü 他の尺度も同様に，提案手法がそれぞれベースライン手法を上回った定量的結果 : 主要な評価尺度でベースラインより精度向上 25 手法
𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+, ICML15] 41.67 ± 4.83 16.98 ± 0.66 27.83 ± 0.88 11.13 ± 1.12 RFCM [Kambara+, ICIP21] 46.64 ± 2.98 18.92 ± 0.89 28.43 ± 1.11 12.27 ± 0.72 Ours 𝟔𝟎. 𝟎𝟓 ± 𝟑. 𝟏𝟏 𝟐𝟎. 𝟗𝟖 ± 𝟎. 𝟕𝟑 𝟑𝟏. 𝟐𝟕 ± 𝟎. 𝟑𝟑 𝟏𝟒. 𝟑𝟖 ± 𝟎. 𝟒𝟐 +𝟐. 𝟎𝟔 +𝟐. 𝟖𝟒 +𝟐. 𝟏𝟏

定性的結果 : 衝突する物体を正しく表現できている 26 正解文把持中のペットボトルをおもちゃの木の車の上に配置しようとして、うまく置けずにペットボトルが倒れる SAT[Xu+ ICML15] おもちゃの木の車がアームと衝突する
RFCM[Kambara+, ICIP21] 把持している空のペットボトルを哺乳瓶の上に配置しようとして倒れる提案手法把持中のペットボトルをおもちゃの木の車の上に配置しようとして、うまく置けずに倒れる配置領域対象物体 attention map 衝突する物体が不適切注目領域が適切

定性的結果 : 発生する危険性および衝突する物体を誤って記述した 27 配置領域 Depth画像に対する Attention map 正解文くまのぬいぐるみとアームが衝突する
提案手法把持している青いたばこの箱をカメラの上に配置しようとして、うまく置けずにたばこの箱が倒れる醤油瓶に注目している

Ablation Study : 各モジュールの有効性を確認 ü CAIE(Cross Attentional Image Encoder)におけるCross-Attention構造の影響が最も大きい
28 𝐚𝐛𝐥𝐚𝐭𝐢𝐨𝐧条件 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 w/o NNCM 59.57 ± 4.48 21.23 ± 0.42 31.14 ± 0.58 𝟏𝟒. 𝟐𝟔 ± 0.72 w/o CAM 56.94 ± 5.47 20.77 ± 0.88 30.69 ± 0.71 13.61 ± 0.88 w/o CAIE 54.68 ± 3.95 20.58 ± 1.05 30.58 ± 0.55 13.43 ± 0.43 Ours 𝟔𝟏. 𝟎𝟔 ± 𝟑. 𝟏𝟓 𝟐𝟏. 𝟑𝟏 ± 𝟎. 𝟑𝟕 𝟑𝟏. 𝟒𝟎 ± 𝟎. 𝟐𝟒 𝟏𝟒. 𝟐𝟔 ± 𝟎. 𝟐𝟑

まとめ : n 背景 -- 生活支援ロボットを用いて物体配置では，事前に危険性を予測し，ユーザに判断を仰ぐ機能は安全性を高める 29 n 提案手法
-- NNLMをマルチモーダル生成に導入 -- 衝突領域を強調するCAMを導入 -- 対象物体と配置領域の関係性をモデル化するCAMDを導入 n 結果 -- 主要な評価尺度において，ベースライン手法を超える性能を達成

Appendix : Nearest Neighbor Language Model [Uravashi+, ICLR20] 30 学習集合
(Obama was senator for, lllinois) (Barack is married to, Michelle) (Obama was born in, Hawaii) … (Obama is a native of, Hawaii) 推論時 (Obama’s birthplace is, ??) 利用して出力をrescore

Appendix : NNLM [Uravashi+, ICLR20]をマルチモーダル生成に適用 n NNMT [Uravashi+, ICLR21] --
NNLMを機会翻訳に適用させた手法 31 𝑝#*#+, b 𝑦#-$ = 𝜆.// 𝑍 𝑉0softmax 𝑑 𝑘( , 𝑧# + 1 − 𝜆.// 𝑝(b 𝑦#-$ |𝑥&1'# , 𝑥#+23 ) n 提案手法 -- NNLMをマルチモーダル生成に適用 𝑘近傍法を用いて計算した距離に基づく確率画像を用いて計算した確率

Appendix : 後続研究 ① クラウドサービスによるサンプルの増強 n データ収集クラウドソーシングを用いて説明文を付与被験者:
200人 4000文を収集 32 n 説明文付与与えられた動画において最も危険性の高い衝突に関して記述

Appendix : Attention Branch Network [Fukui+, CVPR19] n Attention Branch
Network ベースとなるモデルに並列にAttention Branchを追加し、予測に対する視覚的説明を生成する手法 33

Appendix : PonNet[Magassouba+, AR21] n PonNet 物体配置時の衝突 / 非衝突
を予測「衝突」と予測した際の注目領域を可視化 34

Appendix : Retrieval機構の関連研究 (REALM[Guu+, ICML20] , RAG[NeuraIPS20]) • 推論時、明示的に知識コーパスから文書を抽出し、入力に加えることによって予測を行う手法
35 https://data-analytics.fun/2021/06/03/understanding-rag/

[JSAI23] Nearest Neighbor Future Captioning: Ge...

[JSAI23] Nearest Neighbor Future Captioning: Generating Descriptions for Possible Collisions in Object Placement Tasks

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

1 Nearest Neighbor Future Captioning: 物体配置タスクにおける衝突リスクに関する説明文生成小松拓実1, 神原元就1,

背景 : 生活支援ロボットは安全に物体を配置することが求められる n 生活支援ロボット – 要支援者の解決策として注目 – 基本動作の一つに物体配置 2

n タスク: future captioning – 時刻𝑡の画像から𝑡+𝑘の説明文を生成する問題設定 : 物体配置時の危険性に関する説明文生成 3

関連研究 : タスク実行前に衝突を予測し説明することは困難 4 SAM RFCM PonNet[Magassouba+, AR21] Attention Branch

既存手法の問題点 : 衝突直前の画像を用いる • RFCM[kambara+, ICIP21] 入力: 時刻t-kから時刻𝑡の画像出力: 時刻t+1に発生する

n 新規性 n 衝突予測における注目領域を強調するCollision Attention Moduleの導入 n 対象物体と配置領域の関係性をモデル化するCross Attentional Image

n Cross Attentional Multimodal Decoder n Nearest Neighbor Captioning Module

n PonNet[Magassouba+, AR21]を拡張 n Collision Prediction Branch -- 衝突予想を行う n

n 入力対象物体, 配置領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物体検出器で検出した障害物 : 𝒙()'!

n 入力対象物体, 配置領域のRGBD画像 : 𝒙!"#$, 𝒙%&'! 物体検出器で検出した障害物 : 𝒙()'!

Cross Attentional Image Encoder: 対象物体と配置領域の関係をモデル化 n 対象物体と配置領域の関係性をモデル化する n 構造

n 入力 𝒙789: の画像特徴量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特徴量: 𝒉;<=7,

n 入力 𝒙789: の画像特徴量: 𝒉789: 𝒙;<=7, 𝒙>?=7 @ の特徴量: 𝒉;<=7,

Cross Attentional Multimodal Decoder: 予測を行う n 画像と言語のマルチモーダル特徴量から予測確率を出力 n Transformer

n 入力画像特徴量: 𝒉@G:= マルチモーダル特徴量: 𝒉GHI Cross Attentional Multimodal Decoder:

n 入力画像特徴量: 𝒉@G:= マルチモーダル特徴量: 𝒉GHI Cross Attentional Multimodal Decoder:

Nearest Neighbor Captioning Module: モデル出力のrescoreを行う n NNLM Urvashi, ICLR20 をベースにしたモジュール

NNFCM ~Datastoreの構築~: 学習済みモデルを使用し、(Key, Value) を保存 n Datastoreの構築学習集合における全サンプルに対する (Key, Value)

n Inquire & Aggregate 推論時，𝒛7 をKeyとしてDataStoreより 𝑘近傍𝑁を取得し，以下を計算 𝑝UVV 𝒚7JK =

n 損失関数 n 𝐿 = 𝜆GH 𝐿GH + 𝜆IGH 𝐿IGH

実験設定 : BILA-captionデータセットを拡張したBILA-caption 2.0を構築 n BILA-caption 2.0データセット -- 配置領域のRGBD画像 --

定量的結果 : 主要な評価尺度でベースラインより精度向上 24 手法 𝐂𝐈𝐃𝐄𝐫−𝐃 𝐌𝐄𝐓𝐄𝐎𝐑 𝐑𝐎𝐔𝐆𝐄-𝐋 BLEU4 SAT[Xu+,

定性的結果 : 衝突する物体を正しく表現できている 26 正解文把持中のペットボトルをおもちゃの木の車の上に配置しようとして、うまく置けずにペットボトルが倒れる SAT[Xu+ ICML15] おもちゃの木の車がアームと衝突する

定性的結果 : 発生する危険性および衝突する物体を誤って記述した 27 配置領域 Depth画像に対する Attention map 正解文くまのぬいぐるみとアームが衝突する

Ablation Study : 各モジュールの有効性を確認 ü CAIE(Cross Attentional Image Encoder)におけるCross-Attention構造の影響が最も大きい

まとめ : n 背景 -- 生活支援ロボットを用いて物体配置では，事前に危険性を予測し，ユーザに判断を仰ぐ機能は安全性を高める 29 n 提案手法

Appendix : Nearest Neighbor Language Model [Uravashi+, ICLR20] 30 学習集合

Appendix : NNLM [Uravashi+, ICLR20]をマルチモーダル生成に適用 n NNMT [Uravashi+, ICLR21] --

Appendix : 後続研究 ① クラウドサービスによるサンプルの増強 n データ収集クラウドソーシングを用いて説明文を付与被験者:

Appendix : Attention Branch Network [Fukui+, CVPR19] n Attention Branch

Appendix : PonNet[Magassouba+, AR21] n PonNet 物体配置時の衝突 / 非衝突

Appendix : Retrieval機構の関連研究 (REALM[Guu+, ICML20] , RAG[NeuraIPS20]) • 推論時、明示的に知識コーパスから文書を抽出し、入力に加えることによって予測を行う手法