Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 是方諒介 DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following Xiaofeng Gao1, Qiaozi Gao2, Ran Gong1, Kaixiang Lin2, Govind Thattai2, Gaurav Sukhatme2,3 (1UCLA, 2Amazon Alexa AI, 3USC Viterbi School of Engineering) IEEE RA-L 2022 慶應義塾大学 杉浦孔明研究室 是方諒介 Gao, X., Qiaozi, G., Ran, G., Kaixiang, L., Govind, T., Gaurav, S. "DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following." IEEE RA-L 7.4 (2022): 10049-10056.

Slide 2

Slide 2 text

概要 背景 ✓ 人間とロボットによる双方向の自然言語理解 提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション 結果 ✓ 適切な時期・内容の質問応答により成功率が向上 ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開 2

Slide 3

Slide 3 text

背景:自然言語指示による家事タスク実行 ◼ ALFRED [Shridhar+, CVPR20] ◼ 物体操作を含むVision-and-Language Navigationタスクの標準ベンチマーク ◼ 抽象度の異なる指示文が存在 ◼ 課題 ✓ 曖昧な自然言語を環境中における行動へ接地 ✓ 長期的な行動計画および起こり得る失敗からの復帰 3

Slide 4

Slide 4 text

関連研究:ALFREDは行動系列の多様性が不十分/指示が一方向 ◼ ALFREDの欠点 ✓ タスクに依存する行動系列がほぼ固定 ✓ 一度指示を出した後,情報を追加付与不可(≠双方向) 4 手法 概要 HLSM [Blukis+, CoRL21] 3D semantic voxel mapを構築 FILM [Min+, ICLR22] semantic search policyにより対象物体の位置を予測 Prompter [Inoue+, 23] LLMを用いてランドマークを頼りに対象物体の位置を予測 ALFRED HLSM Prompter

Slide 5

Slide 5 text

提案タスク:DialFRED (Dialogue + ALFRED) ◼ 対話による曖昧性解消 ◼ ロボットがユーザ(人間)に質問 ◼ 応答から得た新情報を利用して行動 ◼ ALFREDを拡張したベンチマークを公開 ◼ タスクの種類数:8 → 25 (Appendix) ◼ 環境数:112 ◼ 物体の種類数:80 ◼ 人間がアノテーションした53kの質問応答 ◼ テンプレート文による自動生成も可能 5 ロボットと人間の対話例

Slide 6

Slide 6 text

タスクの種類を拡張:より細かいサブゴールへ分割後、マージ 方針1:元のタスクをよりlow-levelなサブゴールへ分割 ◼ 指示文:テンプレートに基づいて作成 ◼ 例)Clean -> “put the object in the sink” + “turn on the faucet” + “turn off the faucet” 方針2:分割したサブゴールをマージして新たなタスクを作成 ◼ 指示文:主要なサブゴールのみを説明するように作成 ◼ 例)”go to the fridge” + “open the fridge” -> Move & Open 6 新たなタスク例

Slide 7

Slide 7 text

Hybrid data collection:人間による質問応答のアノテーション ◼ Amazon Mechanical Turkを用いてクラウドソーシング 手順1:タスク実行前の動画視聴(10秒) 手順2:テンプレートで生成された質問から合うものを選択 or 自作 手順3:模範動作の動画視聴 手順4:応答作成 or 質問の要否判断 7 アノテーション画面

Slide 8

Slide 8 text

◼ 前提:3種類の質問テンプレート 1) Location: “where is [object]?” 2) Appearance: “what does [object] look like?” 3) Direction: “which direction should I turn to?” ◼ Oracle answer:対応する応答テンプレート 1) Location: “The [object] is to your [direction] in/on the [container].” 2) Appearance: “The [object] is [color] and made of [material].” 3) Direction: “You should turn [direction] / You don’t need to move.” Oracle answer:シーンのメタデータを用いたテンプレート応答自動生成 8 パーサで抽出した指示文中の名詞 シミュレータから取得

Slide 9

Slide 9 text

提案手法:questioner-performerフレームワーク ① Questioner:指示文 + 観測画像 → 質問 ◼ 「いつ」「何を」質問するべきか判断 ② Performer:指示文 + 観測画像 + 質問 + 応答 + 過去の行動 → 次の行動 ◼ 質問応答を踏まえて次の行動を予測 9

Slide 10

Slide 10 text

① Questioner:LSTMに基づくencoder, decoder ◼ 人間の対話データセットで事前学習 ◼ 学習ベース:Markov Decision Processを仮定 ◼ 強化学習でfine-tuning ◼ ヒューリスティック:Model Confusion (MC) [Chi+, AAAI20] ◼ 行動予測分布のトップ2の差が閾値 未満 → 自信なしと判断して質問 10 :質問トークン(質問の種類・物体) :ResNetから抽出した画像特徴量

Slide 11

Slide 11 text

② Performer:Episodic Transformer [Pashevich+, ICCV21] ◼ transformerを用いて,画像・言語・行動に関する過去の系列をエンコード ◼ 訓練集合において考えられるすべての質問とoracle answerで事前学習 ◼ 予測行動と模範動作との交差エントロピー誤差を最小化 11

Slide 12

Slide 12 text

実験設定:DialFREDベンチマーク ◼ シミュレータ:AI2-THOR [Kolve+, 17] ◼ 1000ステップ超過または10回以上の行動失敗で終了 ◼ 評価指標 ① Success Rate (SR) ↑ ◼ (失敗/成功で0/1)を全エピソードで平均した値 ② Path Weighted Success Rate (PWSR) ↑ ◼ を全エピソードで平均した値 ③ Number of Questions (NQ) ↓ ◼ Questionerが質問した回数 12 AI2-THOR :模範動作に要するステップ数 :実際に要したステップ数

Slide 13

Slide 13 text

定量的結果:適切な質問により成功率が向上 ◼ 6種類の条件 ◼ 2-6:質問応答を用いてperformerを訓練 ◼ 5-6:人間の対話データセットによりquestionerを訓練 ◼ 考察 ✓ 1-3:質問応答が成功率向上に寄与 ✓ 4:MCを用いた場合,unseen環境では成功率が低下 ✓ 5-6:タスク実行途中での質問応答により,質問数は増加するものの成功率は向上 13

Slide 14

Slide 14 text

◼ Perturbed oracle:50%の確率で質問に応答しない ◼ 考察 ✓ RL anytimeと人間の対話データセットは分布が類似(locationに関する質問が最多) ✓ Locationに関するperturbationにより最も成功率が低下 ✓ Perturbationによる成功率低下の影響は学習ベースの方が少ない Ablation Study:questionerにより適切に質問割合を調整可能 14 タスク開始時に 無作為に質問 訓練された questionerが タスク実行中に質問 3種類の質問の割合

Slide 15

Slide 15 text

まとめ 背景 ✓ 人間とロボットによる双方向の自然言語理解 提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション 結果 ✓ 適切な時期・内容の質問応答により成功率が向上 ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開 15

Slide 16

Slide 16 text

Appendix:25種類のタスク 16