[RSJ23] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

慶應義塾大学是方諒介，和田唯我，兼田寛大，長嶋隼矢，杉浦孔明 DialMAT: 敵対的摂動に基づく対話的Vision-and-Language Navigation

背景：生活支援ロボットにおけるマルチモーダル言語理解 ▪ 生活支援ロボット ▪ 高齢化社会における在宅介助者不足解消に期待 ▪ 自然言語指示が可能になれば利便性向上に寄与 ▪ 対話による曖昧性解消に期待左手側にあります
キッチンテーブルはどこにありますか？ - 2 - 8x 緑色のカップを持ってきてください

関連研究：Vision-and-Language + Robotics - 3 - 自然言語指示を含むロボット競技会 RoboCup@Home [Iocchi+,
AIJ15], World Robot Summit (WRS) [Okada+, AR19] ALFRED [Shridhar+, CVPR20] タスクを扱う主要な手法 CAPEAM [Kim+, ICCV23], SHeFU [Korekata+, IROS23], HLSM-MAT [Ishikawa+, ICPR22], E.T. [Pashevich+, ICCV21] 対話を伴う Object Navigationタスク DialFRED [Gao+, RA-L22], TEACh [Padmakumar+, AAAI22], CVDN [Thomason+, CoRL19] WRS (2018- ) ALFRED SHeFU

問題設定 (1/2)： DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 4
- ▪ ALFREDを拡張した物体操作を含む対話的VLNタスク ▪ タスクの種類数：8 → 25 ▪ 環境数：112 ▪ 物体の種類数：80 ▪ 人間がアノテーションした53kの質問応答 ▪ CVPR23 Embodied AI Workshopでコンペ開催 ▪ Team Keio：優勝 @Vancouver

問題設定 (2/2)： DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 5
- ▪ サブゴール開始時にユーザに対して3種類の質問が可能 ① 対象物体の位置：”Where is [object]?” ② 対象物体の形容：”What does [object] look like?” ③ 移動すべき方向：”Which direction should I turn to?” ▪ オラクル応答：シミュレータから取得したメタデータから自動生成 ① ”The [object] is to your [direction] in/on the [container].” ② “The [object] is [color] and made of [material].” ③ “You should turn [direction] / You don’t need to move.” ▪ 評価指標：Success Rate (SR)，Path Weighted Success Rate (PWSR)

提案手法：DialMAT - 6 - ▪ Questioner：サブゴール開始時にどの質問を行うか判定 ▪ LSTMベースの [Gao+, RA-L22]
に準拠（指示文 + 観測画像 → 質問） ▪ Moment-based Adversarial Performer (MAPer)：各時刻の行動を出力 ▪ Episodic Transformer [Pashevich+, ICCV21] を拡張 MAPer [Gao+, RA-L22]

MAPer (1/2)：並列クロスモーダル特徴抽出機構 - 7 - ▪ 入力：質問応答文集合 + 指示文 +
観測画像 + 過去の行動系列 ▪ 出力：ロボットの次の行動（e.g., <turn left>, <pick up [xxx]>） ▪ 基盤モデルを用いた並列クロスモーダル特徴抽出機構 ▪ 言語：CLIPtxt [Radford+, PMLR21]， DeBERTa v3 [He+, ICLR23] ▪ 画像：CLIPimg [Radford+, PMLR21]， ResNet [He+, CVPR16]

MAPer (2/2)：Moment-based Adversarial Training (MAT) の指数移動平均の指数移動平均 - 8 -
▪ 頑健性向上のため，MAT [Ishikawa+, ICPR22] を導入 ▪ 潜在空間に敵対的摂動を加算 (cf. VILLA [Gan+, NeurIPS20])

定量的結果：ベースライン手法を成功率で上回る ▪ DialFREDデータセットの検証集合におけるUnseen集合を再分割 ▪ (疑似検証集合 : 疑似テスト集合) = (1,296 :
1,363) ▪ テスト集合における実験回数が限られるため手法 MAT適用条件疑似テスト集合テスト集合 act img txt SR [%]↑ PWSR [%]↑ SR [%]↑ ベースライン手法 [Gao+, RA-L22] 0.31 0.19 - 提案手法 (DialMAT) 0.34 0.20 - ✓ 0.36 0.21 - ✓ ✓ ✓ 0.39 0.23 0.14 - 9 -

定性的結果 (1/2)：対象物体の位置に関する対話 ☺ 環境中に複数個の机が存在するなか，対象の机まで正確に移動 t=3 - 10 - ▪ 指示文：”Move
to the desk.” “Where is the desk?” “The desk is to your right.” t=26

定性的結果 (2/2)：ロボットが移動すべき方向，対象物体の形容に関する対話 ☺ フロアランプの方を向いたうえ，指示通りに点灯 - 11 - ▪ 指示文：”Move
to the floorlamp, power on the floorlamp.” “Which direction should I turn to?” “You should turn right.” “What does the floorlamp look like?” “The floorlamp is gray.” t=142 t=147

まとめ - 12 - ▪ 背景 ✓ 生活支援ロボットの自然言語指示理解における，対話的な曖昧性解消 ▪
提案 ✓ 言語，画像，行動の潜在空間に敵対的摂動を組み込むMATの導入 ✓ 基盤モデルによる並列クロスモーダル特徴抽出機構 ▪ 結果 ✓ DialFRED Challenge@CVPR23において優勝コード公開

Appendix

CVPR2023 Embodied AI Workshop： Embodied AIタスクに関する多様なコンペを開催 - 14 - ▪
Habitat ▪ RxR-Habitat ▪ MultiON ▪ SoundSpaces ▪ Robotic Vision Scene Understanding ▪ TDW-Transport ▪ AI2-THOR Rearrangement ▪ Language Interaction ▪ DialFRED ▪ ManiSkill [Weihs+, CVPR21] [Gu+, ICLR23]

ALFREDタスクの種類を拡張 (1/2)：より細かいサブゴールへ分割後，マージ - 15 - ▪ 方針1：元のタスクをよりlow-levelなサブゴールへ分割 ▪ 指示文：テンプレートに基づいて作成
▪ 例）Clean -> “put the object in the sink” + “turn on the faucet” + “turn off the faucet” ▪ 方針2：分割したサブゴールをマージして新たなタスクを作成 ▪ 指示文：主要なサブゴールのみを説明するように作成 ▪ 例）”go to the fridge” + “open the fridge” -> Move & Open 新たなタスク例 [Gao+, RA-L22]

ALFREDタスクの種類を拡張 (2/2) ：25種類のタスク - 16 - [Gao+, RA-L22]

Hybrid data collection：人間による質問応答のアノテーション - 17 - ▪ Amazon Mechanical
Turkを用いてクラウドソーシング ▪ 手順1：タスク実行前の動画視聴（10秒） ▪ 手順2：テンプレートで生成された質問から合うものを選択 or 自作 ▪ 手順3：模範動作の動画視聴 ▪ 手順4：応答作成 or 質問の要否判断アノテーション画面 [Gao+, RA-L22]

質問応答例：3種類の質問 - 18 - [Gao+, RA-L22]

Questioner：LSTMに基づくエンコーダ，デコーダ - 19 - ▪ 人間の対話データセットで事前学習 ▪ 学習ベース ▪ Markov
Decision Processを仮定 ▪ 強化学習でfine-tuning ▪ ヒューリスティック ▪ Model Confusion [Chi+, AAAI20] ▪ 行動予測分布のトップ2の差が閾値 =0.5未満 → 自信なしと判断して質問 [Gao+, RA-L22]

[RSJ23] DialMAT: Dialogue-Enabled Transformer w...

[RSJ23] DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学是方諒介，和田唯我，兼田寛大，長嶋隼矢，杉浦孔明 DialMAT: 敵対的摂動に基づく対話的Vision-and-Language Navigation

関連研究：Vision-and-Language + Robotics - 3 - 自然言語指示を含むロボット競技会 RoboCup@Home [Iocchi+,

問題設定 (1/2)： DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 4

問題設定 (2/2)： DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 5

提案手法：DialMAT - 6 - ▪ Questioner：サブゴール開始時にどの質問を行うか判定 ▪ LSTMベースの [Gao+, RA-L22]

MAPer (1/2)：並列クロスモーダル特徴抽出機構 - 7 - ▪ 入力：質問応答文集合 + 指示文 +

MAPer (2/2)：Moment-based Adversarial Training (MAT) の指数移動平均の指数移動平均 - 8 -

定量的結果：ベースライン手法を成功率で上回る ▪ DialFREDデータセットの検証集合におけるUnseen集合を再分割 ▪ (疑似検証集合 : 疑似テスト集合) = (1,296 :

定性的結果 (1/2)：対象物体の位置に関する対話 ☺ 環境中に複数個の机が存在するなか，対象の机まで正確に移動 t=3 - 10 - ▪ 指示文：”Move

定性的結果 (2/2)：ロボットが移動すべき方向，対象物体の形容に関する対話 ☺ フロアランプの方を向いたうえ，指示通りに点灯 - 11 - ▪ 指示文：”Move

まとめ - 12 - ▪ 背景 ✓ 生活支援ロボットの自然言語指示理解における，対話的な曖昧性解消 ▪

Appendix

CVPR2023 Embodied AI Workshop： Embodied AIタスクに関する多様なコンペを開催 - 14 - ▪

ALFREDタスクの種類を拡張 (1/2)：より細かいサブゴールへ分割後，マージ - 15 - ▪ 方針1：元のタスクをよりlow-levelなサブゴールへ分割 ▪ 指示文：テンプレートに基づいて作成

ALFREDタスクの種類を拡張 (2/2) ：25種類のタスク - 16 - [Gao+, RA-L22]

Hybrid data collection：人間による質問応答のアノテーション - 17 - ▪ Amazon Mechanical

質問応答例：3種類の質問 - 18 - [Gao+, RA-L22]

Questioner：LSTMに基づくエンコーダ，デコーダ - 19 - ▪ 人間の対話データセットで事前学習 ▪ 学習ベース ▪ Markov