Slide 1

Slide 1 text

慶應義塾大学 是方諒介,和田唯我,兼田寛大,長嶋隼矢,杉浦孔明 DialMAT: 敵対的摂動に基づく 対話的Vision-and-Language Navigation

Slide 2

Slide 2 text

背景:生活支援ロボットにおけるマルチモーダル言語理解 ■ 生活支援ロボット ■ 高齢化社会における在宅介助者不足解消に期待 ■ 自然言語指示が可能になれば利便性向上に寄与 ■ 対話による曖昧性解消に期待 左手側にあります キッチンテーブルは どこにありますか? - 2 - 8x 緑色のカップを持ってきてください

Slide 3

Slide 3 text

関連研究:Vision-and-Language + Robotics - 3 - 自然言語指示を含む ロボット競技会 RoboCup@Home [Iocchi+, AIJ15], World Robot Summit (WRS) [Okada+, AR19] ALFRED [Shridhar+, CVPR20] タスクを扱う主要な手法 CAPEAM [Kim+, ICCV23], SHeFU [Korekata+, IROS23], HLSM-MAT [Ishikawa+, ICPR22], E.T. [Pashevich+, ICCV21] 対話を伴う Object Navigationタスク DialFRED [Gao+, RA-L22], TEACh [Padmakumar+, AAAI22], CVDN [Thomason+, CoRL19] WRS (2018- ) ALFRED SHeFU

Slide 4

Slide 4 text

問題設定 (1/2): DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 4 - ■ ALFREDを拡張した物体操作を含む対話的VLNタスク ■ タスクの種類数:8 → 25 ■ 環境数:112 ■ 物体の種類数:80 ■ 人間がアノテーションした53kの質問応答 ■ CVPR23 Embodied AI Workshopでコンペ開催 ■ Team Keio:優勝 @Vancouver

Slide 5

Slide 5 text

問題設定 (2/2): DialFRED [Gao+, RA-L22] (Dialogue + ALFRED) - 5 - ■ サブゴール開始時にユーザに対して3種類の質問が可能 ① 対象物体の位置:”Where is [object]?” ② 対象物体の形容:”What does [object] look like?” ③ 移動すべき方向:”Which direction should I turn to?” ■ オラクル応答:シミュレータから取得したメタデータから自動生成 ① ”The [object] is to your [direction] in/on the [container].” ② “The [object] is [color] and made of [material].” ③ “You should turn [direction] / You don’t need to move.” ■ 評価指標:Success Rate (SR),Path Weighted Success Rate (PWSR)

Slide 6

Slide 6 text

提案手法:DialMAT - 6 - ■ Questioner:サブゴール開始時にどの質問を行うか判定 ■ LSTMベースの [Gao+, RA-L22] に準拠(指示文 + 観測画像 → 質問) ■ Moment-based Adversarial Performer (MAPer):各時刻の行動を出力 ■ Episodic Transformer [Pashevich+, ICCV21] を拡張 MAPer [Gao+, RA-L22]

Slide 7

Slide 7 text

MAPer (1/2):並列クロスモーダル特徴抽出機構 - 7 - ■ 入力:質問応答文集合 + 指示文 + 観測画像 + 過去の行動系列 ■ 出力:ロボットの次の行動(e.g., , ) ■ 基盤モデルを用いた 並列クロスモーダル特徴抽出機構 ■ 言語:CLIPtxt [Radford+, PMLR21], DeBERTa v3 [He+, ICLR23] ■ 画像:CLIPimg [Radford+, PMLR21], ResNet [He+, CVPR16]

Slide 8

Slide 8 text

MAPer (2/2):Moment-based Adversarial Training (MAT) の指数移動平均 の指数移動平均 - 8 - ■ 頑健性向上のため,MAT [Ishikawa+, ICPR22] を導入 ■ 潜在空間に敵対的摂動 を加算 (cf. VILLA [Gan+, NeurIPS20])

Slide 9

Slide 9 text

定量的結果:ベースライン手法を成功率で上回る ■ DialFREDデータセットの検証集合におけるUnseen集合を再分割 ■ (疑似検証集合 : 疑似テスト集合) = (1,296 : 1,363) ■ テスト集合における実験回数が限られるため 手法 MAT適用条件 疑似テスト集合 テスト集合 act img txt SR [%]↑ PWSR [%]↑ SR [%]↑ ベースライン手法 [Gao+, RA-L22] 0.31 0.19 - 提案手法 (DialMAT) 0.34 0.20 - ✓ 0.36 0.21 - ✓ ✓ ✓ 0.39 0.23 0.14 - 9 -

Slide 10

Slide 10 text

定性的結果 (1/2):対象物体の位置に関する対話 ☺ 環境中に複数個の机が存在するなか,対象の机まで正確に移動 t=3 - 10 - ■ 指示文:”Move to the desk.” “Where is the desk?” “The desk is to your right.” t=26

Slide 11

Slide 11 text

定性的結果 (2/2): ロボットが移動すべき方向,対象物体の形容に関する対話 ☺ フロアランプの方を向いたうえ,指示通りに点灯 - 11 - ■ 指示文:”Move to the floorlamp, power on the floorlamp.” “Which direction should I turn to?” “You should turn right.” “What does the floorlamp look like?” “The floorlamp is gray.” t=142 t=147

Slide 12

Slide 12 text

まとめ - 12 - ■ 背景 ✓ 生活支援ロボットの自然言語指示理解 における,対話的な曖昧性解消 ■ 提案 ✓ 言語,画像,行動の潜在空間に 敵対的摂動を組み込むMATの導入 ✓ 基盤モデルによる並列クロスモーダル特徴抽出機構 ■ 結果 ✓ DialFRED Challenge@CVPR23において優勝 コード公開

Slide 13

Slide 13 text

Appendix

Slide 14

Slide 14 text

CVPR2023 Embodied AI Workshop: Embodied AIタスクに関する多様なコンペを開催 - 14 - ■ Habitat ■ RxR-Habitat ■ MultiON ■ SoundSpaces ■ Robotic Vision Scene Understanding ■ TDW-Transport ■ AI2-THOR Rearrangement ■ Language Interaction ■ DialFRED ■ ManiSkill [Weihs+, CVPR21] [Gu+, ICLR23]

Slide 15

Slide 15 text

ALFREDタスクの種類を拡張 (1/2): より細かいサブゴールへ分割後,マージ - 15 - ■ 方針1:元のタスクをよりlow-levelなサブゴールへ分割 ■ 指示文:テンプレートに基づいて作成 ■ 例)Clean -> “put the object in the sink” + “turn on the faucet” + “turn off the faucet” ■ 方針2:分割したサブゴールをマージして新たなタスクを作成 ■ 指示文:主要なサブゴールのみを説明するように作成 ■ 例)”go to the fridge” + “open the fridge” -> Move & Open 新たなタスク例 [Gao+, RA-L22]

Slide 16

Slide 16 text

ALFREDタスクの種類を拡張 (2/2) :25種類のタスク - 16 - [Gao+, RA-L22]

Slide 17

Slide 17 text

Hybrid data collection: 人間による質問応答のアノテーション - 17 - ■ Amazon Mechanical Turkを用いてクラウドソーシング ■ 手順1:タスク実行前の動画視聴(10秒) ■ 手順2:テンプレートで生成された質問から合うものを選択 or 自作 ■ 手順3:模範動作の動画視聴 ■ 手順4:応答作成 or 質問の要否判断 アノテーション画面 [Gao+, RA-L22]

Slide 18

Slide 18 text

質問応答例:3種類の質問 - 18 - [Gao+, RA-L22]

Slide 19

Slide 19 text

Questioner:LSTMに基づくエンコーダ,デコーダ - 19 - ■ 人間の対話データセットで事前学習 ■ 学習ベース ■ Markov Decision Processを仮定 ■ 強化学習でfine-tuning ■ ヒューリスティック ■ Model Confusion [Chi+, AAAI20] ■ 行動予測分布のトップ2の差が閾値 =0.5未満 → 自信なしと判断して質問 [Gao+, RA-L22]