Multilingual Fetching Instruction Generation Based on Bilingual Case Relation Transformer

Slide 1

Slide 1 text

Bilingual Case Relation Transformerに基づく複数言語による物体操作指示文生成慶應義塾大学兼田寛大，神原元就，杉浦孔明

Slide 2

Slide 2 text

背景：社会的課題の解決策として生活支援ロボットに期待 2 少子高齢化や人手不足などの解決策として，生活支援ロボットへの期待が高まっている生活支援ロボットにおいて，自然言語による物体操作指示文などの指示に関する理解性能が向上すれば利便性がより高まる生活支援ロボット - 障がいを持つ人々を物理的に支援可能 - 在宅介護者の不足を克服

Slide 3

Slide 3 text

背景：生活支援ロボットの指示理解には大規模マルチコーパスが重要ロボットの指示理解には画像と指示がセットになったマルチモーダルコーパスによる訓練が重要 3 コーパスが大規模であるほど，効果的な訓練が可能問題：人手による大量の文付与はコストが高い "move the brown teddy bear to the top right box" アノテータ

Slide 4

Slide 4 text

問題設定：物体操作指示文付与タスク 4 • 対象タスク： Fetching instruction generation (FIG) タスク - 対象物体および目標領域についての物体操作指示文付与タスク • 出力：英語および日本語の物体操作指示文英語 "move the brown teddy bear to the top right box" 日本語 "左下の箱の中にある茶色の人形を右上の箱に移してください" • 入力：対象物体および目標領域を含む画像入力例)

Slide 5

Slide 5 text

FIGタスク：明瞭な指示文の生成は容易ではない 5 課題①：対象物体に関する正確な記述に課題課題②：対象物体の特定が困難なシーンが存在 × どちらの缶か特定できない ○ 参照表現を用いた明瞭な記述 - 水色のスポンジの隣にあるコーラの缶 - 箱の中にあるコーラの缶対象物体 CRT[Kambara+ RAL21]による生成文 - move the white bottle with the red cap ... × 対象物体に関する誤った記述エラー分析では生成文の34%に対象物体の誤り類似物体

Slide 6

Slide 6 text

既存研究：既存手法では生成文の品質が低い 6 タスク代表的手法概要 Image Captioning Object Relation Transformer [Herdade+ NeurIPS19] 領域間の幾何的参照表現をモデル化 Video Captioning VideoBERT [Sun+ ICCV19] 映像と音声を扱ったBERT-basedモデル Change Captioning DUDA [Park+ ICCV19] RNNを用いたChange captioningモデル FIG Case Relation Transformer [Kambara+ RAL&IROS21] Transformerを用いた言語生成モデル VideoBERT Case Relation Transformer Object Relation Transformer

Slide 7

Slide 7 text

提案手法：Bilingual Case Relation Transformer 7 Target Destination Context … Input Transformer Embedder Transformer Encoder / Decoder "Move the brown teddy bear to the top right box" "左下の箱にある茶色の人形を右上の箱に移してください" Output Bilingual Case Relation Transformer 新規性 - Transformer Embedderを導入 - 英語および日本語の指示文を単一のモデルで生成 - 対象物体の領域画像に関する再構成損失を導入 - 複数言語による指示文を生成可能に - 対象物体に関する記述をより正確に

Slide 8

Slide 8 text

モデル構造：Bilingual Case Relation Transformer 8

Slide 9

Slide 9 text

入力：対象物体，目標領域，コンテキスト情報の領域画像 9 - 入力：全体画像から切り出した3種類の領域画像対象物体目標領域コンテキスト情報 - Up-Down Attention[Anderson+ CVPR18]により検出

Slide 10

Slide 10 text

モデル構造：Bilingual Case Relation Transformer 10 - Transformer Embedder：2層のTransformerにより入力を変換および結合

Slide 11

Slide 11 text

- 対象物体の領域画像をResNet50に入力し， 3層から画像特徴量を取得 - 対象物体に関する特徴を埋め込む - 第１層の出力，目標領域，コンテキスト情報を同様にTransformerレイヤに入力 - 物体の位置関係に関する情報を埋め込む Transformer Embedder：入力画像の特徴量を埋め込み 11 ・Transformer Layer 1 Trm Transformer Embedder Trm ResNet50 ResNet50 ResNet101 ・・ conv4_x conv3_x conv2_x conv5_x conv5_x ・Transformer Layer 2 ※ Trm = Transformer Layer

Slide 12

Slide 12 text

モデル構造：Bilingual Case Relation Transformer 12 - Transformer エンコーダ・デコーダ：入力からトークンを予測

Slide 13

Slide 13 text

- 幾何的特徴量を用いたTransformer型エンコーダ - 幾何的特徴量：物体の領域間の座標情報 Transformer エンコーダ・デコーダ：入力からトークンを予測 13 ・Transformer エンコーダ・Transformer デコーダ - 自己回帰的にトークン予測を行う・ジェネレータ - デコーダの出力からjトークン目の確率の予測値を計算

Slide 14

Slide 14 text

サンプル数文の長さサンプル中のトークンの予測確率損失関数：対象物体の領域画像に関する再構成損失を導入 14 - 損失関数再構成損失入力の対象物体の領域画像を 1次元に整形したベクトル対象物体の領域画像に関するエンコーダの出力を線形変換したベクトルノルム対象物体の画像の特徴を保持するように学習対象物体の色や形状に関する誤りを減らす

Slide 15

Slide 15 text

言語トークンにより複数言語による指示文を単一のモデルで生成 15 ・学習 - 英語および日本語の指示文を混合して学習 - 文頭に言語に応じてまたはトークンを挿入英語 " move the brown teddy bear to the top right box" 日本語 " 左下の箱の中にある茶色の人形を右上の箱に移してください" ・生成 - 文頭にまたはトークンを挿入することで指示文を得る B-CRT 入力画像 move 左上の ... 出力 the 箱の brown 中に ...

Slide 16

Slide 16 text

PFN-PICデータセット：英語および日本語の物体操作指示文と画像のセット 16 セット画像対象物体指示文 train 1060 27029 81087 valid 100 2928 8774 test 20 296 898 英語 "move the brown teddy bear to the top right box" 日本語 "左下の箱の中にある茶色の人形を右上の箱に移してください" ・サンプル構成 - 全体の画像 - 対象物体の領域座標 - 目標領域の位置 - 英語の指示文 - 日本語の指示文・データセットサイズ

Slide 17

Slide 17 text

定量的結果：両言語においてベースラインを各評価尺度において上回る 17 BLEU４↑ METEOR ↑ CIDEr−D ↑ SPICE ↑ 英語 ORT [Herdade+ NeurIPS19] 7.3 ± 1.4 17.4 ± 0.9 29.3 ± 2.3 26.7 ± 1.3 CRT [Kambara+ RAL21] 14.9 ± 1.1 23.1 ± 0.7 96.6 ± 12.0 44.0 ± 2.3 提案手法 16.4 ± 0.6 24.6 ± 0.3 115.8 ± 3.4 48.2 ± 0.1 日本語 CRT [Kambara+ RAL21] 25.4 ± 1.1 29.4 ± 0.3 94.2 ± 4.7 - 提案手法 25.8 ± 0.6 29.5 ± 0.6 116.5 ± 3.9 - 画像キャプショニング用尺度 +1.5 英語・日本語の両言語における各評価尺度において，ベースラインを上回る +1.5 +19.2 +22.3 +4.2 +0.1 +0.4

Slide 18

Slide 18 text

定性的結果：既存手法より高い品質の指示文を生成 18 正解文 "move the blue and white tube from the upper left box to the lower left box" "水色のスポンジの隣にあるコーラの缶を右上の箱に入れて" [Kambara+ RAL21] "move the white bottle with the red cap to the lower left box" "左下の箱の中にあるコーラの缶を、右上の箱に動かしてください" 提案手法 "move the tube with the blue lid from the upper left box to the lower left" "左下の箱の中にある、右側にある方のコーラの缶を、右上の箱に動かしてください"

Slide 19

Slide 19 text

19 定性的結果：対象物体に関する正確な指示文を生成 ✖ 対象物体に関する誤った記述 ○ 対象物体の形容・位置に関する正確な記述正解文 "move the blue and white tube from the upper left box to the lower left box" [Kambara+ RAL21] "move the white bottle with the red cap to the lower left box" 提案手法 "move the tube with the blue lid from the upper left box to the lower left"

Slide 20

Slide 20 text

20 定性的結果：参照表現を利用した明瞭な指示文を生成 ✖ どちらの缶か特定できない ○ 参照表現を用いた明瞭な記述正解文 "水色のスポンジの隣にあるコーラの缶を右上の箱に入れて" [Kambara+ RAL21] "左下の箱の中にあるコーラの缶を、右上の箱に動かしてください" 提案手法 "左下の箱の中にある、右側にある方のコーラの缶を、右上の箱に動かしてください"

Slide 21

Slide 21 text

被験者実験において有効性を確認 21 • 5段階の Mean Opinion Score (MOS) 1：とても悪い 2：悪い 3：普通 4：良い 5：とても良い • 内容：被験者5名が各50文の指示文を明瞭さにより評価手法 MOS↑(英語) MOS↑(日本語) 正解文 (Upper Bound) 4.42 ± 0.11 4.46 ± 0.11 ORT [Herdade+ NeurIPS19] 1.35 ± 0.08 - CRT [Kambara+ RAL21] 3.29 ± 0.19 3.58 ± 0.18 提案手法 4.01 ± 0.16 4.04 ± 0.17 +0.72 +0.46

Slide 22

Slide 22 text

まとめ 22 Target Destination Context … Input Transformer Embedder Transformer Encoder / Decoder "Move the brown teddy bear to the top right box" "左下の箱にある茶色の人形を右上の箱に移してください" Output Bilingual Case Relation Transformer ・背景・提案手法・結果マルチモーダルデータセットのaugmentation 複数言語による物体操作指示文を単一のモデルで生成するマルチモーダル言語生成モデル Bilingual Case Relation Transformer 各評価尺度においてベースライン手法を上回り，被験者実験においても人間の付与した指示文に近い品質の生成文を得ることを確認