Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Multilingual Fetching Instruction Generation Ba...

Multilingual Fetching Instruction Generation Based on Bilingual Case Relation Transformer

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 問題設定:物体操作指示文付与タスク 4 • 対象タスク: Fetching instruction generation (FIG) タスク -

    対象物体および目標領域についての物体操作指示文付与タスク • 出力:英語および日本語の物体操作指示文 英語 "move the brown teddy bear to the top right box" 日本語 "左下の箱の中にある茶色の人形を 右上の箱に移してください" • 入力:対象物体および目標領域を含む画像 入力例)
  2. FIGタスク:明瞭な指示文の生成は容易ではない 5 課題①:対象物体に関する正確な記述に課題 課題②:対象物体の特定が困難なシーンが存在 × どちらの缶か特定できない ◦ 参照表現を用いた明瞭な記述 - 水色のスポンジの隣にあるコーラの缶

    - 箱の中にあるコーラの缶 対象物体 CRT[Kambara+ RAL21]による生成文 - move the white bottle with the red cap ... × 対象物体に関する誤った記述 エラー分析では生成文の34%に対象物体の誤り 類似物体
  3. 既存研究:既存手法では生成文の品質が低い 6 タスク 代表的手法 概要 Image Captioning Object Relation Transformer

    [Herdade+ NeurIPS19] 領域間の幾何的参照表現をモデル化 Video Captioning VideoBERT [Sun+ ICCV19] 映像と音声を扱ったBERT-basedモデル Change Captioning DUDA [Park+ ICCV19] RNNを用いたChange captioningモデル FIG Case Relation Transformer [Kambara+ RAL&IROS21] Transformerを用いた言語生成モデル VideoBERT Case Relation Transformer Object Relation Transformer
  4. 提案手法:Bilingual Case Relation Transformer 7 Target Destination Context … Input

    Transformer Embedder Transformer Encoder / Decoder "Move the brown teddy bear to the top right box" "左下の箱にある茶色の人形を右上の箱に移してください" Output Bilingual Case Relation Transformer 新規性 - Transformer Embedderを導入 - 英語および日本語の指示文を 単一のモデルで生成 - 対象物体の領域画像に関する 再構成損失を導入 - 複数言語による指示文を生成可能に - 対象物体に関する記述をより正確に
  5. - 対象物体の領域画像をResNet50に入力し, 3層から画像特徴量を取得 - 対象物体に関する特徴を埋め込む - 第1層の出力,目標領域,コンテキスト 情報を同様にTransformerレイヤに入力 - 物体の位置関係に関する情報を埋め込む

    Transformer Embedder:入力画像の特徴量を埋め込み 11 ・Transformer Layer 1 Trm Transformer Embedder Trm ResNet50 ResNet50 ResNet101 ・・ conv4_x conv3_x conv2_x conv5_x conv5_x ・Transformer Layer 2 ※ Trm = Transformer Layer
  6. - 幾何的特徴量を用いたTransformer型エンコーダ - 幾何的特徴量 :物体の領域間の座標情報 Transformer エンコーダ・デコーダ:入力からトークンを予測 13 ・Transformer エンコーダ

    ・Transformer デコーダ - 自己回帰的にトークン予測を行う ・ジェネレータ - デコーダの出力からjトークン目の 確率の予測値を計算
  7. サンプル数 文の長さ サンプル中の トークンの予測確率 損失関数:対象物体の領域画像に関する再構成損失を導入 14 - 損失関数 再構成損失 入力の対象物体の領域画像を

    1次元に整形したベクトル 対象物体の領域画像に関する エンコーダの出力を線形変換したベクトル ノルム 対象物体の画像の特徴を保持するように学習 対象物体の色や形状に関する誤りを減らす
  8. 言語トークンにより複数言語による指示文を単一のモデルで生成 15 ・学習 - 英語および日本語の指示文を混合して学習 - 文頭に言語に応じて<en>または<ja>トークンを挿入 英語 "<en> move

    the brown teddy bear to the top right box" 日本語 "<ja> 左下の箱の中にある茶色の 人形を右上の箱に移してください" ・生成 - 文頭に<en>または<ja>トークンを挿入することで指示文を得る B-CRT 入力画像 <en> <ja> move 左上の ... 出力 the 箱の brown 中に ...
  9. PFN-PICデータセット:英語および日本語の物体操作指示文と画像のセット 16 セット 画像 対象物体 指示文 train 1060 27029 81087

    valid 100 2928 8774 test 20 296 898 英語 "move the brown teddy bear to the top right box" 日本語 "左下の箱の中にある茶色の人形を 右上の箱に移してください" ・サンプル構成 - 全体の画像 - 対象物体の領域座標 - 目標領域の位置 - 英語の指示文 - 日本語の指示文 ・データセットサイズ
  10. 定量的結果:両言語においてベースラインを各評価尺度において上回る 17 BLEU4↑ METEOR ↑ CIDEr−D ↑ SPICE ↑ 英

    語 ORT [Herdade+ NeurIPS19] 7.3 ± 1.4 17.4 ± 0.9 29.3 ± 2.3 26.7 ± 1.3 CRT [Kambara+ RAL21] 14.9 ± 1.1 23.1 ± 0.7 96.6 ± 12.0 44.0 ± 2.3 提案手法 16.4 ± 0.6 24.6 ± 0.3 115.8 ± 3.4 48.2 ± 0.1 日 本 語 CRT [Kambara+ RAL21] 25.4 ± 1.1 29.4 ± 0.3 94.2 ± 4.7 - 提案手法 25.8 ± 0.6 29.5 ± 0.6 116.5 ± 3.9 - 画像キャプショニング用尺度 +1.5 英語・日本語の両言語における各評価尺度において,ベースラインを上回る +1.5 +19.2 +22.3 +4.2 +0.1 +0.4
  11. 定性的結果:既存手法より高い品質の指示文を生成 18 正解文 "move the blue and white tube from

    the upper left box to the lower left box" "水色のスポンジの隣にあるコーラの缶を 右上の箱に入れて" [Kambara+ RAL21] "move the white bottle with the red cap to the lower left box" "左下の箱の中にあるコーラの缶を、 右上の箱に動かしてください" 提案手法 "move the tube with the blue lid from the upper left box to the lower left" "左下の箱の中にある、右側にある方の コーラの缶を、右上の箱に動かしてください"
  12. 19 定性的結果:対象物体に関する正確な指示文を生成 ✖ 対象物体に関する誤った記述 ◦ 対象物体の形容・位置に 関する正確な記述 正解文 "move the

    blue and white tube from the upper left box to the lower left box" [Kambara+ RAL21] "move the white bottle with the red cap to the lower left box" 提案手法 "move the tube with the blue lid from the upper left box to the lower left"
  13. 20 定性的結果:参照表現を利用した明瞭な指示文を生成 ✖ どちらの缶か特定できない ◦ 参照表現を用いた明瞭な記述 正解文 "水色のスポンジの隣にあるコーラの缶を 右上の箱に入れて" [Kambara+

    RAL21] "左下の箱の中にあるコーラの缶を、 右上の箱に動かしてください" 提案手法 "左下の箱の中にある、右側にある方の コーラの缶を、右上の箱に動かしてください"
  14. 被験者実験において有効性を確認 21 • 5段階の Mean Opinion Score (MOS) 1:とても悪い 2:悪い

    3:普通 4:良い 5:とても良い • 内容:被験者5名が各50文の指示文を明瞭さにより評価 手法 MOS↑(英語) MOS↑(日本語) 正解文 (Upper Bound) 4.42 ± 0.11 4.46 ± 0.11 ORT [Herdade+ NeurIPS19] 1.35 ± 0.08 - CRT [Kambara+ RAL21] 3.29 ± 0.19 3.58 ± 0.18 提案手法 4.01 ± 0.16 4.04 ± 0.17 +0.72 +0.46
  15. まとめ 22 Target Destination Context … Input Transformer Embedder Transformer

    Encoder / Decoder "Move the brown teddy bear to the top right box" "左下の箱にある茶色の人形を右上の箱に移してください" Output Bilingual Case Relation Transformer ・背景 ・提案手法 ・結果 マルチモーダルデータセットのaugmentation 複数言語による物体操作指示文を単一のモデルで 生成するマルチモーダル言語生成モデル Bilingual Case Relation Transformer 各評価尺度においてベースライン手法を上回り, 被験者実験においても人間の付与した指示文に 近い品質の生成文を得ることを確認