Data Augmentation Based on Cross-Modal Back Translation for Multimodal Language Understanding for Fetching Instruction

Slide 1

Slide 1 text

慶應義塾大学飯田紡，九曜克之，石川慎太朗，杉浦孔明物体指示理解タスクにおけるクロスモーダル言語生成に基づくデータ拡張

Slide 2

Slide 2 text

背景︓⽣活⽀援ロボットに⾃然⾔語で命令できれば便利 2 ⽣活⽀援ロボット • 障がいを持つ⼈々を物理的に⽀援可能 • 在宅介護者不⾜を克服スムーズな対話に基づいて⽣活⽀援タスクを実⾏できれば便利例）「机の上の飲み物を取ってきて」

Slide 3

Slide 3 text

対象物体の特定が困難なシーンが存在 3 対象物体の特定が困難な場合がある • 表現が曖昧 • 対象物体候補が複数存在命令⽂中の参照表現を理解する必要がある “Grab the red can near to white bottle and put it in the lower left box.” どっちの⽸︖

Slide 4

Slide 4 text

問題設定︓物体操作指⽰理解 4 MLU-FI (Multimodal Language Understanding for Fetching Instruction) 命令⽂と画像をもとに，命令⽂中の移動対象物体を特定⼊⼒︓対象物体候補の領域, 画像中の各物体の領域, 命令⽂出⼒︓候補領域中の物体が対象物体である確率の予測値の物体は命令⽂中の移動対象物体︖ コンテキスト領域候補領域 move the pink toy animal. 対象物体

Slide 5

Slide 5 text

関連研究︓物体指⽰理解における既存⼿法はサンプル効率が悪い 6 • [Hatori+ ICRA18] – 物体のピッキングタスクにおける指⽰理解⼿法 • MTCM, MTCM-AB [Magassouba+ ICRA19, 20] – 命令⽂と全体画像から対象物体を特定 • Target-dependent UNITER[Ishikawa+ RAL & IROS21] – 全体画像の代わりに物体領域を⼊⼒し物体間の関係を学習 1⽂につき正例: 1物体, 負例: 正例以外の物体全て⼤量の負例サンプルを使⽤していなかった “Grab the red can near to white bottle and put it in the lower left box.”

Slide 6

Slide 6 text

提案⼿法︓クロスモーダル逆翻訳データ拡張 8 良い命令⽂のみをデータ拡張に使⽤良い命令⽂︓理解モジュールの出⼒! " # $ %!"#$ がしきい値!以上 " #!"# = % & $%&' ()) | ( ) *()) % & $%&' ()) ≥ ! !: インデックス

Slide 7

Slide 7 text

⽣成モジュールにより⽣成した命令⽂の例 12 “grab the yellow color object near the white bottle and put it in the upper right.” “move the green mug cup to the box with the teddy bear.”

Slide 8

Slide 8 text

提案⼿法における⽣成モジュール 13 Case Relation Transformer[Kambara+ RAL & IROS21] ⼊⼒︓対象領域コンテキスト領域（対象以外の物体領域）⽬標領域出⼒︓対象物体を⽬標領域に移動させる命令⽂ CRB (Case Relation Block)と Transformerにより • 物体間の位置関係をモデル化 • 参照表現を含む⽂を⽣成可能

Slide 9

Slide 9 text

Target-dependent UNITER[Ishikawa+ RAL & IROS21] ⼊⼒︓候補領域コンテキスト領域命令⽂出⼒︓候補領域が命令⽂の対象物体である確率の予測値(() *) 提案⼿法における理解モジュール 14 物体間の関係をモデル化命令⽂中の参照表現理解

Slide 10

Slide 10 text

実験設定︓データ数ごとのMLU-FIタスクにおける提案⼿法の性能評価 15 PFN-PIC データセット[Hatori+ 18] 画像と画像中の物体に関する命令⽂から構成 4つの箱に物体を無作為に配置訓練データ数.+,を変化させてデータ拡張の効果を確認 .+, = 4000, 6000, 10000, 63330 (全⽂) が命令⽂中の対象物体かどうかの分類精度により性能評価 “Move the yellow container to the top left box.”

Slide 11

Slide 11 text

.!"#︓提案⼿法で⽣成した命令⽂数 .!"# = 0 : ベースライン⼿法（Target-dependent UNITER) ⾊は拡張前の訓練データ数⾊ごとに.!"# = 0のときと⽐較定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 16

Slide 12

Slide 12 text

定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 17 .!"#︓提案⼿法で⽣成した命令⽂数 .!"# = 0 : ベースライン⼿法（Target-dependent UNITER) ⾊は拡張前の訓練データ数⾊ごとに.!"# = 0のときと⽐較訓練データ数 : 4000 データ拡張（正例）: 2000

Slide 13

Slide 13 text

定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 18 .!"#︓提案⼿法で⽣成した命令⽂数 .!"# = 0 : ベースライン⼿法（Target-dependent UNITER) ⾊は拡張前の訓練データ数⾊ごとに.!"# = 0のときと⽐較訓練データ数 : 4000 データ拡張（正例）: 4000

Slide 14

Slide 14 text

.!"# = 0 : ベースライン⼿法（Target-dependent UNITER) 訓練データ数.-.が少ない時データ拡張により精度向上訓練データ数.-.が多い時ベースラインとほぼ同等定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 19 訓練データ数︓少

Slide 15

Slide 15 text

.!"# = 0 : ベースライン⼿法（Target-dependent UNITER) 訓練データ数.-.が少ない時データ拡張により精度向上訓練データ数.-.が多い時ベースラインとほぼ同等定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 20 訓練データ数︓多

Slide 16

Slide 16 text

定性的結果︓成功例 22 “move the black coffee mug to the upper left box.” ! " # = 0.999 ! " # = 3.15 ×10%& “move the pink toy animal to the lower left hand side of the box.” ほぼ正確に対象領域であると判定ほぼ正確に対象領域ではないと判定

Slide 17

Slide 17 text

⼊⼒の領域数./012を変化させて検証 ./012 = 20︓候補領域に近い順20個に制限訓練データ数.+,が少ない時⼊⼒領域数の制限がモデルの性能向上に寄与 Ablation Studies︓⼩規模データでは⼊⼒領域数の制限により精度向上 23 Acc [%] .'()* .+, 20 全て 4000 92.4 ± 0.7 91.7 ± 0.9 6000 93.4 ± 0.6 93.2 ± 0.5 10000 93.2 ± 0.5 93.7 ± 0.5 63330 96.6 ± 1.1 97.1 ± 0.3

Slide 18

Slide 18 text

背景︓⽣活⽀援ロボットに⾃然⾔語で命令できれば便利提案︓クロスモーダル逆翻訳データ拡張によるデータ拡張⼿法結果︓標準データセットにおいて、ベースライン⼿法を精度で上回るまとめ 25