Slide 1

Slide 1 text

慶應義塾大学 松田一起, 小槻誠太郎, 杉浦孔明 マルチモーダル言語理解タスクにおける Dual ProtoNCEに基づくドメイン適応と 大規模言語モデルを用いた指示文理解

Slide 2

Slide 2 text

背景: 生活支援ロボットによるマルチモーダル言語理解 - 2 - 課題 ■ 超高齢化社会における在宅介助者不足 解決策 ■ 生活支援ロボット ■ 高齢者の独立性の向上 ■ 安全性の向上 →多様な環境や指示文への 対応は不十分 x8

Slide 3

Slide 3 text

背景: 生活支援ロボットによるマルチモーダル言語理解 - 3 - 実世界データセットのみでの学習 ■ ☹︎ 高コスト・拡張性 転移学習による シミュレーションデータの活用 ■ ☺低コスト・効率的な収集 実世界データ

Slide 4

Slide 4 text

背景: 生活支援ロボットによるマルチモーダル言語理解 - 4 - 実世界データセットのみでの学習 ■ ☹︎ 高コスト・拡張性 転移学習による シミュレーションデータの活用 ■ ☺低コスト・効率的な収集 シミュレーションデータ

Slide 5

Slide 5 text

問題設定: MLU-FI – マルチモーダル言語理解における 柔軟な定式化を行ったタスク - 5 - ■ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 入力 ■ 画像 ■ 指示文 ■ 候補領域 →候補物体が対象物体であるかの二値分類 “Get me the picture furthest on the left.”

Slide 6

Slide 6 text

■ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 入力 ■ 画像 ■ 指示文 ■ 候補領域 →候補物体が対象物体であるかの二値分類 問題設定: MLU-FI – マルチモーダル言語理解における 柔軟な定式化を行ったタスク - 6 - Pos. Neg. Neg. Neg. “Get me the picture furthest on the left.”

Slide 7

Slide 7 text

■ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 問題設定: MLU-FI – マルチモーダル言語理解における 柔軟な定式化を行ったタスク - 7 - Pos. Neg. Neg. Neg. “Get me the picture furthest on the left.” 赤い矩形領域は指示文 が示す緑の対象物体を 指しているか? →二値分類タスク https://global.toyota/jp/detail/8709536 ☺より柔軟な定式化 • 対象物体が存在しない場合 • 対象物体が複数ある場合 にも対応可能

Slide 8

Slide 8 text

関連研究: 代表的なV&Lタスク - 8 - タスク 手法 参照表現理解タスク MDETR [Kamath+, ICCV21] UNITER [Chen+, ECCV20] MLU-FI Target-Dependent UNITER [Ishikawa+, IROS21] PCTL [Otsuki+, IROS23]

Slide 9

Slide 9 text

関連研究:代表的なV&Lタスク - 9 - タスク 手法 参照表現理解タスク MDETR [Kamath+, ICCV21] UNITER [Chen+, ECCV20] MLU-FI Target-Dependent UNITER [Ishikawa+, IROS21] PCTL [Otsuki+, IROS23]

Slide 10

Slide 10 text

PCTL [Otsuki+, IROS23] - 10 - ■ 2ドメイン間で対照学習を行う ■ 対比損失Dual ProtoNCEを提案 実世界 シミュレーション 特徴量 特徴量 クラスタ 重心 クラスタ 重心 対照学習 “Clean the top-left picture above TV” “Pick up the glass in the sink”

Slide 11

Slide 11 text

PCTL [Otsuki+, IROS23] - 11 - ■ 2ドメイン間で対照学習を行う ■ 対比損失Dual ProtoNCEを提案 ■ ドメイン間の差異が大きすぎると失敗する傾向

Slide 12

Slide 12 text

提案手法: Paraphraser – 大規模言語モデルを用いた 指示文言い換え - 12 - ■ Paraphraser ■ ドメイン間の差異を埋める言い換えを行う ■ 不必要なドメイン転移を抑える 例: →転移学習手法の精度向上を期待 “Make your way down the hall to the second floor office kitchen and turn on the lights” “Turn off the lights in the second floor office kitchen” GPT-3.5␣ この文型のドメイン転移をモデルに 学習させるのはリソースの浪費

Slide 13

Slide 13 text

提案手法: Paraphraser – 大規模言語モデルを用いた 指示文言い換え - 13 - ■ Paraphraser ■ PCTL [Otsuki+, IROS23]への導入

Slide 14

Slide 14 text

データセット: VLNかつSim2realにおいて最大規模 - 14 - 実世界に基づくデータセット ■ REVERIE-fetchデータセット [Otsuki+, IROS23] ■ サンプル数: 10,243 シミュレーションに基づくデータセット ■ ALFREAD-fetchデータセット [Otsuki+, IROS23] ■ サンプル数: 34,286 ALFREAD-fetch

Slide 15

Slide 15 text

定量的結果: 精度においてベースライン手法を上回る - 15 - Target domain only ■ 転移先ドメイン(実環境)データのみ PCTL[Otsuki+, IROS23] ■ MLU-FIの転移学習手法 手法 精度 [%] Target domain only 73.0 ± 1.87 PCTL[Otsuki+, IROS23] 78.1 ± 2.49 Ours 78.6 ± 1.87 +5.6 +0.5

Slide 16

Slide 16 text

定性的結果-成功例1 : 参照表現を正しく理解 - 16 - ■ 指示文: "Take down the photo closest to the kitchen doorway“ ■ 候補領域: 右手前の絵 指示文が示す対象物体: 右手前の絵 と正しく判断 ■ “closest to the kitchen doorway” という参照表現を正しく理解

Slide 17

Slide 17 text

定性的結果-成功例2: 参照表現を正しく理解 - 17 - ■ 指示文: "Bring me the light brown pillow next to the plant." ■ 候補領域: 中央オレンジの枕 指示文が示す対象物体: 最も左の枕 と正しく判断 ■ “next to the plant” という参照表現を正しく理解

Slide 18

Slide 18 text

定性的結果-失敗例: 視覚情報の欠如 - 18 - ■ 指示文: "Pull out the chair furthest from the fireplace." ■ 候補領域: 左側の椅子 指示文が示す対象物体: 右手前の椅子 と誤った判断 ■ 画像内に“the fireplace”が 存在しない

Slide 19

Slide 19 text

まとめ - 19 - 背景 ■ 転移学習によるシミュレーションデータの活用 提案 ■ ドメイン間の差異を埋める 言い換えを行うParaphraserの提案 ■ MLU-FIの既存の転移学習手法に Paraphraserを導入 結果 ■ MLU-FIの精度においてベースラインを上回る

Slide 20

Slide 20 text

Appendix: MLU-FIをGoogle Bardで試す - 20 - Bard ■ Googleが提供する大規模言語モデル ■ マルチモーダルでの入力が可能 ■ 右図のような画像と指示文を入力 ■ 物体検出の精度があまり高くない ■ 右図では候補物体を”white pillow” と認識 ■ 成功率は50%以下

Slide 21

Slide 21 text

Appendix: エラー分析 - 21 - CE(Comprehension Error) ■ 視覚情報や言語情報の処理に失敗した例 ■ 参照表現理解に失敗した場合 ■ 言語情報から関連する物体を正しく特定できなかった場合 AI(Ambiguous Instruction) ■ 曖昧な命令文が与えられた例 SR(Small Region) ■ 対象領域が画像全体の1%に満たず,極端に小さい例 エラーの 種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2

Slide 22

Slide 22 text

Appendix: エラー分析 - 22 - SO(Severe Occlusion) ■ 対象物体が他の物体に隠れている例 ML(Missing Landmark) ■ タスクの実行に必要な参照表現の視覚情報が欠如している例 AE(Annotation Error) ■ アノテーション誤りを含む例 エラーの 種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2

Slide 23

Slide 23 text

Appendix: エラー分析 - 23 - MO(Multiple Object) ■ 候補領域が複数の物体を含む例 IL(Paraphraser Information Loss) ■ Paraphraserを通して命令文から余分な情報を除去したときに, タスクの実行に必要な情報が失われてしまう例 エラーの 種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2