Slide 1

Slide 1 text

Bilingual Case Relation Transformerに基づく 複数言語による物体操作指示文生成 慶應義塾大学 兼田 寛大,神原 元就,杉浦 孔明

Slide 2

Slide 2 text

背景:社会的課題の解決策として生活支援ロボットに期待 2 少子高齢化や人手不足などの解決策として,生活支援ロボットへの期待が高まっている 生活支援ロボットにおいて, 自然言語による物体操作指示文などの 指示に関する理解性能が向上すれば 利便性がより高まる 生活支援ロボット - 障がいを持つ人々を物理的に支援可能 - 在宅介護者の不足を克服

Slide 3

Slide 3 text

背景:生活支援ロボットの指示理解には大規模マルチコーパスが重要 ロボットの指示理解には画像と指示がセットになったマルチモーダルコーパスによる訓練が重要 3 コーパスが大規模であるほど,効果的な訓練が可能 問題:人手による大量の文付与はコストが高い "move the brown teddy bear to the top right box" アノテータ

Slide 4

Slide 4 text

問題設定:物体操作指示文付与タスク 4 • 対象タスク: Fetching instruction generation (FIG) タスク - 対象物体および目標領域についての物体操作指示文付与タスク • 出力:英語および日本語の物体操作指示文 英語 "move the brown teddy bear to the top right box" 日本語 "左下の箱の中にある茶色の人形を 右上の箱に移してください" • 入力:対象物体および目標領域を含む画像 入力例)

Slide 5

Slide 5 text

FIGタスク:明瞭な指示文の生成は容易ではない 5 課題①:対象物体に関する正確な記述に課題 課題②:対象物体の特定が困難なシーンが存在 × どちらの缶か特定できない ○ 参照表現を用いた明瞭な記述 - 水色のスポンジの隣にあるコーラの缶 - 箱の中にあるコーラの缶 対象物体 CRT[Kambara+ RAL21]による生成文 - move the white bottle with the red cap ... × 対象物体に関する誤った記述 エラー分析では生成文の34%に対象物体の誤り 類似物体

Slide 6

Slide 6 text

既存研究:既存手法では生成文の品質が低い 6 タスク 代表的手法 概要 Image Captioning Object Relation Transformer [Herdade+ NeurIPS19] 領域間の幾何的参照表現をモデル化 Video Captioning VideoBERT [Sun+ ICCV19] 映像と音声を扱ったBERT-basedモデル Change Captioning DUDA [Park+ ICCV19] RNNを用いたChange captioningモデル FIG Case Relation Transformer [Kambara+ RAL&IROS21] Transformerを用いた言語生成モデル VideoBERT Case Relation Transformer Object Relation Transformer

Slide 7

Slide 7 text

提案手法:Bilingual Case Relation Transformer 7 Target Destination Context … Input Transformer Embedder Transformer Encoder / Decoder "Move the brown teddy bear to the top right box" "左下の箱にある茶色の人形を右上の箱に移してください" Output Bilingual Case Relation Transformer 新規性 - Transformer Embedderを導入 - 英語および日本語の指示文を 単一のモデルで生成 - 対象物体の領域画像に関する 再構成損失を導入 - 複数言語による指示文を生成可能に - 対象物体に関する記述をより正確に

Slide 8

Slide 8 text

モデル構造:Bilingual Case Relation Transformer 8

Slide 9

Slide 9 text

入力:対象物体,目標領域,コンテキスト情報の領域画像 9 - 入力:全体画像から切り出した3種類の領域画像 対象物体 目標領域 コンテキスト情報 - Up-Down Attention[Anderson+ CVPR18]により検出

Slide 10

Slide 10 text

モデル構造:Bilingual Case Relation Transformer 10 - Transformer Embedder:2層のTransformerにより入力を変換および結合

Slide 11

Slide 11 text

- 対象物体の領域画像をResNet50に入力し, 3層から画像特徴量を取得 - 対象物体に関する特徴を埋め込む - 第1層の出力,目標領域,コンテキスト 情報を同様にTransformerレイヤに入力 - 物体の位置関係に関する情報を埋め込む Transformer Embedder:入力画像の特徴量を埋め込み 11 ・Transformer Layer 1 Trm Transformer Embedder Trm ResNet50 ResNet50 ResNet101 ・・ conv4_x conv3_x conv2_x conv5_x conv5_x ・Transformer Layer 2 ※ Trm = Transformer Layer

Slide 12

Slide 12 text

モデル構造:Bilingual Case Relation Transformer 12 - Transformer エンコーダ・デコーダ:入力からトークンを予測

Slide 13

Slide 13 text

- 幾何的特徴量を用いたTransformer型エンコーダ - 幾何的特徴量 :物体の領域間の座標情報 Transformer エンコーダ・デコーダ:入力からトークンを予測 13 ・Transformer エンコーダ ・Transformer デコーダ - 自己回帰的にトークン予測を行う ・ジェネレータ - デコーダの出力からjトークン目の 確率の予測値を計算

Slide 14

Slide 14 text

サンプル数 文の長さ サンプル中の トークンの予測確率 損失関数:対象物体の領域画像に関する再構成損失を導入 14 - 損失関数 再構成損失 入力の対象物体の領域画像を 1次元に整形したベクトル 対象物体の領域画像に関する エンコーダの出力を線形変換したベクトル ノルム 対象物体の画像の特徴を保持するように学習 対象物体の色や形状に関する誤りを減らす

Slide 15

Slide 15 text

言語トークンにより複数言語による指示文を単一のモデルで生成 15 ・学習 - 英語および日本語の指示文を混合して学習 - 文頭に言語に応じてまたはトークンを挿入 英語 " move the brown teddy bear to the top right box" 日本語 " 左下の箱の中にある茶色の 人形を右上の箱に移してください" ・生成 - 文頭にまたはトークンを挿入することで指示文を得る B-CRT 入力画像 move 左上の ... 出力 the 箱の brown 中に ...

Slide 16

Slide 16 text

PFN-PICデータセット:英語および日本語の物体操作指示文と画像のセット 16 セット 画像 対象物体 指示文 train 1060 27029 81087 valid 100 2928 8774 test 20 296 898 英語 "move the brown teddy bear to the top right box" 日本語 "左下の箱の中にある茶色の人形を 右上の箱に移してください" ・サンプル構成 - 全体の画像 - 対象物体の領域座標 - 目標領域の位置 - 英語の指示文 - 日本語の指示文 ・データセットサイズ

Slide 17

Slide 17 text

定量的結果:両言語においてベースラインを各評価尺度において上回る 17 BLEU4↑ METEOR ↑ CIDEr−D ↑ SPICE ↑ 英 語 ORT [Herdade+ NeurIPS19] 7.3 ± 1.4 17.4 ± 0.9 29.3 ± 2.3 26.7 ± 1.3 CRT [Kambara+ RAL21] 14.9 ± 1.1 23.1 ± 0.7 96.6 ± 12.0 44.0 ± 2.3 提案手法 16.4 ± 0.6 24.6 ± 0.3 115.8 ± 3.4 48.2 ± 0.1 日 本 語 CRT [Kambara+ RAL21] 25.4 ± 1.1 29.4 ± 0.3 94.2 ± 4.7 - 提案手法 25.8 ± 0.6 29.5 ± 0.6 116.5 ± 3.9 - 画像キャプショニング用尺度 +1.5 英語・日本語の両言語における各評価尺度において,ベースラインを上回る +1.5 +19.2 +22.3 +4.2 +0.1 +0.4

Slide 18

Slide 18 text

定性的結果:既存手法より高い品質の指示文を生成 18 正解文 "move the blue and white tube from the upper left box to the lower left box" "水色のスポンジの隣にあるコーラの缶を 右上の箱に入れて" [Kambara+ RAL21] "move the white bottle with the red cap to the lower left box" "左下の箱の中にあるコーラの缶を、 右上の箱に動かしてください" 提案手法 "move the tube with the blue lid from the upper left box to the lower left" "左下の箱の中にある、右側にある方の コーラの缶を、右上の箱に動かしてください"

Slide 19

Slide 19 text

19 定性的結果:対象物体に関する正確な指示文を生成 ✖ 対象物体に関する誤った記述 ○ 対象物体の形容・位置に 関する正確な記述 正解文 "move the blue and white tube from the upper left box to the lower left box" [Kambara+ RAL21] "move the white bottle with the red cap to the lower left box" 提案手法 "move the tube with the blue lid from the upper left box to the lower left"

Slide 20

Slide 20 text

20 定性的結果:参照表現を利用した明瞭な指示文を生成 ✖ どちらの缶か特定できない ○ 参照表現を用いた明瞭な記述 正解文 "水色のスポンジの隣にあるコーラの缶を 右上の箱に入れて" [Kambara+ RAL21] "左下の箱の中にあるコーラの缶を、 右上の箱に動かしてください" 提案手法 "左下の箱の中にある、右側にある方の コーラの缶を、右上の箱に動かしてください"

Slide 21

Slide 21 text

被験者実験において有効性を確認 21 • 5段階の Mean Opinion Score (MOS) 1:とても悪い 2:悪い 3:普通 4:良い 5:とても良い • 内容:被験者5名が各50文の指示文を明瞭さにより評価 手法 MOS↑(英語) MOS↑(日本語) 正解文 (Upper Bound) 4.42 ± 0.11 4.46 ± 0.11 ORT [Herdade+ NeurIPS19] 1.35 ± 0.08 - CRT [Kambara+ RAL21] 3.29 ± 0.19 3.58 ± 0.18 提案手法 4.01 ± 0.16 4.04 ± 0.17 +0.72 +0.46

Slide 22

Slide 22 text

まとめ 22 Target Destination Context … Input Transformer Embedder Transformer Encoder / Decoder "Move the brown teddy bear to the top right box" "左下の箱にある茶色の人形を右上の箱に移してください" Output Bilingual Case Relation Transformer ・背景 ・提案手法 ・結果 マルチモーダルデータセットのaugmentation 複数言語による物体操作指示文を単一のモデルで 生成するマルチモーダル言語生成モデル Bilingual Case Relation Transformer 各評価尺度においてベースライン手法を上回り, 被験者実験においても人間の付与した指示文に 近い品質の生成文を得ることを確認