[RSJ23] Dual ProtoNCE-based Domain Adaptation and Instruction Understanding with Large-Scale Language Models

慶應義塾大学松田一起, 小槻誠太郎, 杉浦孔明マルチモーダル言語理解タスクにおける Dual ProtoNCEに基づくドメイン適応と大規模言語モデルを用いた指示文理解

背景: 生活支援ロボットによるマルチモーダル言語理解 - 2 - 課題 ▪ 超高齢化社会における在宅介助者不足解決策 ▪
生活支援ロボット ▪ 高齢者の独立性の向上 ▪ 安全性の向上 →多様な環境や指示文への対応は不十分 x8

背景: 生活支援ロボットによるマルチモーダル言語理解 - 3 - 実世界データセットのみでの学習 ▪ ☹︎ 高コスト・拡張性転移学習による
シミュレーションデータの活用 ▪ ☺低コスト・効率的な収集実世界データ

背景: 生活支援ロボットによるマルチモーダル言語理解 - 4 - 実世界データセットのみでの学習 ▪ ☹︎ 高コスト・拡張性転移学習による
シミュレーションデータの活用 ▪ ☺低コスト・効率的な収集シミュレーションデータ

問題設定: MLU-FI – マルチモーダル言語理解における柔軟な定式化を行ったタスク - 5 - ▪ MLU-FI
(Multimodal Language Understanding for Fetching Instruction) 入力 ▪ 画像 ▪ 指示文 ▪ 候補領域 →候補物体が対象物体であるかの二値分類 “Get me the picture furthest on the left.”

▪ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 入力 ▪
画像 ▪ 指示文 ▪ 候補領域 →候補物体が対象物体であるかの二値分類問題設定: MLU-FI – マルチモーダル言語理解における柔軟な定式化を行ったタスク - 6 - Pos. Neg. Neg. Neg. “Get me the picture furthest on the left.”

▪ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 問題設定: MLU-FI
– マルチモーダル言語理解における柔軟な定式化を行ったタスク - 7 - Pos. Neg. Neg. Neg. “Get me the picture furthest on the left.” 赤い矩形領域は指示文が示す緑の対象物体を指しているか？ →二値分類タスク https://global.toyota/jp/detail/8709536 ☺より柔軟な定式化 • 対象物体が存在しない場合 • 対象物体が複数ある場合にも対応可能

関連研究: 代表的なV&Lタスク - 8 - タスク手法参照表現理解タスク MDETR [Kamath+,
ICCV21] UNITER [Chen+, ECCV20] MLU-FI Target-Dependent UNITER [Ishikawa+, IROS21] PCTL [Otsuki+, IROS23]

関連研究:代表的なV&Lタスク - 9 - タスク手法参照表現理解タスク MDETR [Kamath+, ICCV21]
UNITER [Chen+, ECCV20] MLU-FI Target-Dependent UNITER [Ishikawa+, IROS21] PCTL [Otsuki+, IROS23]

PCTL [Otsuki+, IROS23] - 10 - ▪ 2ドメイン間で対照学習を行う ▪ 対比損失Dual
ProtoNCEを提案実世界シミュレーション特徴量特徴量クラスタ重心クラスタ重心対照学習 “Clean the top-left picture above TV” “Pick up the glass in the sink”

PCTL [Otsuki+, IROS23] - 11 - ▪ 2ドメイン間で対照学習を行う ▪ 対比損失Dual
ProtoNCEを提案 ▪ ドメイン間の差異が大きすぎると失敗する傾向

提案手法: Paraphraser – 大規模言語モデルを用いた指示文言い換え - 12 - ▪ Paraphraser
▪ ドメイン間の差異を埋める言い換えを行う ▪ 不必要なドメイン転移を抑える例: →転移学習手法の精度向上を期待 “Make your way down the hall to the second floor office kitchen and turn on the lights” “Turn off the lights in the second floor office kitchen” GPT-3.5␣ この文型のドメイン転移をモデルに学習させるのはリソースの浪費

提案手法: Paraphraser – 大規模言語モデルを用いた指示文言い換え - 13 - ▪ Paraphraser
▪ PCTL [Otsuki+, IROS23]への導入

データセット: VLNかつSim2realにおいて最大規模 - 14 - 実世界に基づくデータセット ▪ REVERIE-fetchデータセット [Otsuki+, IROS23]
▪ サンプル数: 10,243 シミュレーションに基づくデータセット ▪ ALFREAD-fetchデータセット [Otsuki+, IROS23] ▪ サンプル数: 34,286 ALFREAD-fetch

定量的結果: 精度においてベースライン手法を上回る - 15 - Target domain only ▪ 転移先ドメイン（実環境）データのみ
PCTL[Otsuki+, IROS23] ▪ MLU-FIの転移学習手法手法精度 [%] Target domain only 73.0 ± 1.87 PCTL[Otsuki+, IROS23] 78.1 ± 2.49 Ours 78.6 ± 1.87 +5.6 +0.5

定性的結果-成功例1 : 参照表現を正しく理解 - 16 - ▪ 指示文: "Take down
the photo closest to the kitchen doorway“ ▪ 候補領域: 右手前の絵指示文が示す対象物体: 右手前の絵と正しく判断 ▪ “closest to the kitchen doorway” という参照表現を正しく理解

定性的結果-成功例2: 参照表現を正しく理解 - 17 - ▪ 指示文: "Bring me the
light brown pillow next to the plant." ▪ 候補領域: 中央オレンジの枕指示文が示す対象物体: 最も左の枕と正しく判断 ▪ “next to the plant” という参照表現を正しく理解

定性的結果-失敗例: 視覚情報の欠如 - 18 - ▪ 指示文: "Pull out the
chair furthest from the fireplace." ▪ 候補領域: 左側の椅子指示文が示す対象物体: 右手前の椅子と誤った判断 ▪ 画像内に“the fireplace”が存在しない

まとめ - 19 - 背景 ▪ 転移学習によるシミュレーションデータの活用提案 ▪ ドメイン間の差異を埋める
言い換えを行うParaphraserの提案 ▪ MLU-FIの既存の転移学習手法に Paraphraserを導入結果 ▪ MLU-FIの精度においてベースラインを上回る

Appendix: MLU-FIをGoogle Bardで試す - 20 - Bard ▪ Googleが提供する大規模言語モデル ▪
マルチモーダルでの入力が可能 ▪ 右図のような画像と指示文を入力 ▪ 物体検出の精度があまり高くない ▪ 右図では候補物体を”white pillow” と認識 ▪ 成功率は50%以下

Appendix: エラー分析 - 21 - CE(Comprehension Error) ▪ 視覚情報や言語情報の処理に失敗した例 ▪
参照表現理解に失敗した場合 ▪ 言語情報から関連する物体を正しく特定できなかった場合 AI(Ambiguous Instruction) ▪ 曖昧な命令文が与えられた例 SR(Small Region) ▪ 対象領域が画像全体の1%に満たず，極端に小さい例エラーの種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2

Appendix: エラー分析 - 22 - SO(Severe Occlusion) ▪ 対象物体が他の物体に隠れている例 ML(Missing
Landmark) ▪ タスクの実行に必要な参照表現の視覚情報が欠如している例 AE(Annotation Error) ▪ アノテーション誤りを含む例エラーの種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2

Appendix: エラー分析 - 23 - MO(Multiple Object) ▪ 候補領域が複数の物体を含む例 IL(Paraphraser
Information Loss) ▪ Paraphraserを通して命令文から余分な情報を除去したときに，タスクの実行に必要な情報が失われてしまう例エラーの種類 CE AI SR SO ML AE MO IL エラー数 42 18 16 9 8 3 2 2

[RSJ23] Dual ProtoNCE-based Domain Adaptation a...

[RSJ23] Dual ProtoNCE-based Domain Adaptation and Instruction Understanding with Large-Scale Language Models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学松田一起, 小槻誠太郎, 杉浦孔明マルチモーダル言語理解タスクにおける Dual ProtoNCEに基づくドメイン適応と大規模言語モデルを用いた指示文理解

背景: 生活支援ロボットによるマルチモーダル言語理解 - 2 - 課題 ▪ 超高齢化社会における在宅介助者不足解決策 ▪

背景: 生活支援ロボットによるマルチモーダル言語理解 - 3 - 実世界データセットのみでの学習 ▪ ☹︎ 高コスト・拡張性転移学習による

背景: 生活支援ロボットによるマルチモーダル言語理解 - 4 - 実世界データセットのみでの学習 ▪ ☹︎ 高コスト・拡張性転移学習による

問題設定: MLU-FI – マルチモーダル言語理解における柔軟な定式化を行ったタスク - 5 - ▪ MLU-FI

▪ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 入力 ▪

▪ MLU-FI (Multimodal Language Understanding for Fetching Instruction) 問題設定: MLU-FI

関連研究: 代表的なV&Lタスク - 8 - タスク手法参照表現理解タスク MDETR [Kamath+,

関連研究:代表的なV&Lタスク - 9 - タスク手法参照表現理解タスク MDETR [Kamath+, ICCV21]

PCTL [Otsuki+, IROS23] - 10 - ▪ 2ドメイン間で対照学習を行う ▪ 対比損失Dual

PCTL [Otsuki+, IROS23] - 11 - ▪ 2ドメイン間で対照学習を行う ▪ 対比損失Dual

提案手法: Paraphraser – 大規模言語モデルを用いた指示文言い換え - 12 - ▪ Paraphraser

提案手法: Paraphraser – 大規模言語モデルを用いた指示文言い換え - 13 - ▪ Paraphraser

データセット: VLNかつSim2realにおいて最大規模 - 14 - 実世界に基づくデータセット ▪ REVERIE-fetchデータセット [Otsuki+, IROS23]

定量的結果: 精度においてベースライン手法を上回る - 15 - Target domain only ▪ 転移先ドメイン（実環境）データのみ

定性的結果-成功例1 : 参照表現を正しく理解 - 16 - ▪ 指示文: "Take down

定性的結果-成功例2: 参照表現を正しく理解 - 17 - ▪ 指示文: "Bring me the

定性的結果-失敗例: 視覚情報の欠如 - 18 - ▪ 指示文: "Pull out the

まとめ - 19 - 背景 ▪ 転移学習によるシミュレーションデータの活用提案 ▪ ドメイン間の差異を埋める

Appendix: MLU-FIをGoogle Bardで試す - 20 - Bard ▪ Googleが提供する大規模言語モデル ▪

Appendix: エラー分析 - 21 - CE(Comprehension Error) ▪ 視覚情報や言語情報の処理に失敗した例 ▪

Appendix: エラー分析 - 22 - SO(Severe Occlusion) ▪ 対象物体が他の物体に隠れている例 ML(Missing

Appendix: エラー分析 - 23 - MO(Multiple Object) ▪ 候補領域が複数の物体を含む例 IL(Paraphraser