Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室
    是方諒介
    DialFRED:
    Dialogue-Enabled Agents for
    Embodied Instruction Following
    Xiaofeng Gao1, Qiaozi Gao2, Ran Gong1, Kaixiang Lin2,
    Govind Thattai2, Gaurav Sukhatme2,3
    (1UCLA, 2Amazon Alexa AI, 3USC Viterbi School of Engineering)
    IEEE RA-L 2022
    慶應義塾大学 杉浦孔明研究室
    是方諒介
    Gao, X., Qiaozi, G., Ran, G., Kaixiang, L., Govind, T., Gaurav, S.
    "DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following." IEEE RA-L 7.4 (2022): 10049-10056.

    View full-size slide

  2. 概要
    背景
    ✓ 人間とロボットによる双方向の自然言語理解
    提案
    ✓ 物体の位置や外見に関する質問応答が可能な
    questioner-performerフレームワーク
    ✓ 人間による53kの質問応答アノテーション
    結果
    ✓ 適切な時期・内容の質問応答により成功率が向上
    ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開
    2

    View full-size slide

  3. 背景:自然言語指示による家事タスク実行
    ◼ ALFRED [Shridhar+, CVPR20]
    ◼ 物体操作を含むVision-and-Language Navigationタスクの標準ベンチマーク
    ◼ 抽象度の異なる指示文が存在
    ◼ 課題
    ✓ 曖昧な自然言語を環境中における行動へ接地
    ✓ 長期的な行動計画および起こり得る失敗からの復帰
    3

    View full-size slide

  4. 関連研究:ALFREDは行動系列の多様性が不十分/指示が一方向
    ◼ ALFREDの欠点
    ✓ タスクに依存する行動系列がほぼ固定
    ✓ 一度指示を出した後,情報を追加付与不可(≠双方向)
    4
    手法 概要
    HLSM [Blukis+, CoRL21] 3D semantic voxel mapを構築
    FILM [Min+, ICLR22] semantic search policyにより対象物体の位置を予測
    Prompter [Inoue+, 23] LLMを用いてランドマークを頼りに対象物体の位置を予測
    ALFRED HLSM Prompter

    View full-size slide

  5. 提案タスク:DialFRED (Dialogue + ALFRED)
    ◼ 対話による曖昧性解消
    ◼ ロボットがユーザ(人間)に質問
    ◼ 応答から得た新情報を利用して行動
    ◼ ALFREDを拡張したベンチマークを公開
    ◼ タスクの種類数:8 → 25 (Appendix)
    ◼ 環境数:112
    ◼ 物体の種類数:80
    ◼ 人間がアノテーションした53kの質問応答
    ◼ テンプレート文による自動生成も可能
    5
    ロボットと人間の対話例

    View full-size slide

  6. タスクの種類を拡張:より細かいサブゴールへ分割後、マージ
    方針1:元のタスクをよりlow-levelなサブゴールへ分割
    ◼ 指示文:テンプレートに基づいて作成
    ◼ 例)Clean -> “put the object in the sink” + “turn on the faucet” + “turn off the faucet”
    方針2:分割したサブゴールをマージして新たなタスクを作成
    ◼ 指示文:主要なサブゴールのみを説明するように作成
    ◼ 例)”go to the fridge” + “open the fridge” -> Move & Open
    6
    新たなタスク例

    View full-size slide

  7. Hybrid data collection:人間による質問応答のアノテーション
    ◼ Amazon Mechanical Turkを用いてクラウドソーシング
    手順1:タスク実行前の動画視聴(10秒)
    手順2:テンプレートで生成された質問から合うものを選択 or 自作
    手順3:模範動作の動画視聴
    手順4:応答作成 or 質問の要否判断
    7
    アノテーション画面

    View full-size slide

  8. ◼ 前提:3種類の質問テンプレート
    1) Location: “where is [object]?”
    2) Appearance: “what does [object] look like?”
    3) Direction: “which direction should I turn to?”
    ◼ Oracle answer:対応する応答テンプレート
    1) Location: “The [object] is to your [direction] in/on the [container].”
    2) Appearance: “The [object] is [color] and made of [material].”
    3) Direction: “You should turn [direction] / You don’t need to move.”
    Oracle answer:シーンのメタデータを用いたテンプレート応答自動生成
    8
    パーサで抽出した指示文中の名詞
    シミュレータから取得

    View full-size slide

  9. 提案手法:questioner-performerフレームワーク
    ① Questioner:指示文 + 観測画像 → 質問
    ◼ 「いつ」「何を」質問するべきか判断
    ② Performer:指示文 + 観測画像 + 質問 + 応答 + 過去の行動 → 次の行動
    ◼ 質問応答を踏まえて次の行動を予測
    9

    View full-size slide

  10. ① Questioner:LSTMに基づくencoder, decoder
    ◼ 人間の対話データセットで事前学習
    ◼ 学習ベース:Markov Decision Processを仮定
    ◼ 強化学習でfine-tuning
    ◼ ヒューリスティック:Model Confusion (MC) [Chi+, AAAI20]
    ◼ 行動予測分布のトップ2の差が閾値 未満 → 自信なしと判断して質問
    10
    :質問トークン(質問の種類・物体)
    :ResNetから抽出した画像特徴量

    View full-size slide

  11. ② Performer:Episodic Transformer [Pashevich+, ICCV21]
    ◼ transformerを用いて,画像・言語・行動に関する過去の系列をエンコード
    ◼ 訓練集合において考えられるすべての質問とoracle answerで事前学習
    ◼ 予測行動と模範動作との交差エントロピー誤差を最小化
    11

    View full-size slide

  12. 実験設定:DialFREDベンチマーク
    ◼ シミュレータ:AI2-THOR [Kolve+, 17]
    ◼ 1000ステップ超過または10回以上の行動失敗で終了
    ◼ 評価指標
    ① Success Rate (SR) ↑
    ◼ (失敗/成功で0/1)を全エピソードで平均した値
    ② Path Weighted Success Rate (PWSR) ↑
    ◼ を全エピソードで平均した値
    ③ Number of Questions (NQ) ↓
    ◼ Questionerが質問した回数
    12
    AI2-THOR
    :模範動作に要するステップ数
    :実際に要したステップ数

    View full-size slide

  13. 定量的結果:適切な質問により成功率が向上
    ◼ 6種類の条件
    ◼ 2-6:質問応答を用いてperformerを訓練
    ◼ 5-6:人間の対話データセットによりquestionerを訓練
    ◼ 考察
    ✓ 1-3:質問応答が成功率向上に寄与
    ✓ 4:MCを用いた場合,unseen環境では成功率が低下
    ✓ 5-6:タスク実行途中での質問応答により,質問数は増加するものの成功率は向上
    13

    View full-size slide

  14. ◼ Perturbed oracle:50%の確率で質問に応答しない
    ◼ 考察
    ✓ RL anytimeと人間の対話データセットは分布が類似(locationに関する質問が最多)
    ✓ Locationに関するperturbationにより最も成功率が低下
    ✓ Perturbationによる成功率低下の影響は学習ベースの方が少ない
    Ablation Study:questionerにより適切に質問割合を調整可能
    14
    タスク開始時に
    無作為に質問
    訓練された
    questionerが
    タスク実行中に質問
    3種類の質問の割合

    View full-size slide

  15. まとめ
    背景
    ✓ 人間とロボットによる双方向の自然言語理解
    提案
    ✓ 物体の位置や外見に関する質問応答が可能な
    questioner-performerフレームワーク
    ✓ 人間による53kの質問応答アノテーション
    結果
    ✓ 適切な時期・内容の質問応答により成功率が向上
    ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開
    15

    View full-size slide

  16. Appendix:25種類のタスク
    16

    View full-size slide