Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI23]Fully Automated Task Management for Gen...

[JSAI23]Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 概要 - 2 - • タスクの生成から実行までを自動化 するフレームワークの構築 • 自然言語指示文を理解しタスクを 実行するマルチモーダル言語理解

    手法の提案 • World Robot Summit 2018優勝手法 を上回るタスク成功率 “Go to the living room, move a plastic bottle from the shelf to the table” ×16
  2. 関連研究:Fetch-and-carryタスクに関連するフレームワーク ・手法は多く存在 手法 概要 REVERIE [Qi+, CVPR20] 高レベルな指示文を含むREVERIEベンチマークを提案 ALFRED [Shridhar+,

    CVPR20] 新しいナビゲーションベンチマーク,ALFLEDを提案 RoboCup@Home [Iocchi+, AIJ15] 実世界における,生活支援ロボットによる日常タスクの実行に関 するベンチマーク OMT [Fukushima+, ICRA22] Transformerを利用したObject goal navigationモデルの一つ TdU [Ishikawa+, RA-L21] 物体間の関係性を学習する,物体操作指示文理解モデルの一つ TdU Put wet soap in between the sinks. ALFREDにおけるタスク例 - 4 -
  3. 既存システムの課題:多様なタスクでの評価が困難 ① 人間が全ての指示文を付与 ② ルールベースによる指示文自動生成 ☺ 曖昧性を含む,多様な指示文に よる訓練が可能  大量かつランダムな状況に基づ

    くon-the-flyな文生成が困難 ☺ 大量の指示文の作成が容易  指示文のパターンが限られる “Go to the bedroom, and bring the rabbit doll on the side table” “Go to XX, and bring YY” ☺ “Bring YY from XX”  - 5 -
  4. 問題設定: Fetch-and-Carry with Object Grounding (FCOG)タスク 与えられた自然言語指示文について,理解・物体に関して記号接地することで 特定しつつFetch-and-Carryタスクを実行 “Go to

    the bedroom, grasp the rabbit doll and send it to the corner sofa” 対象物体:把持・移動する物体 目標領域:移動先 候補領域:対象物体及び目標領域の候補 定義 - 7 - ×2
  5. 提案フレームワーク: FCOGタスクの生成・実行及び評価を自動化 - 8 - システム ロボット タスク生成システム タスク評価システム Navigation

    Object Location Retrieval Fetching Carrying Crawling & Image Collection Object Detection Multimodal Language Comprehension 部屋の選択 静的オブジェクト 配置 動的オブジェクト 配置 タスク生成 セッション終了判定 指示文 ・対象物体 ・目標領域 ステータス ① タスク生成システムにより, 対象物体,目標領域,自然言語 指示文のペアを作成 ②ロボットが自然言語指示文に 基づきタスクを実行 ③ タスク評価システムがタスク の成否を都度判定,セッション 終了判定を出力
  6. タスク生成システム: クロスモーダル言語生成モデルを利用 対象領域 目標領域 画像中の領域群 … CRT [Kambara+, RA-L21] 出力:”Put

    a toy wooden car on the table” • 対象物体及び目標領域の領域 • 対象物体の含まれる画像から 抽出した領域群 入力 出力 自然言語指示文 ① 対象物体及び目標領域をランダムに選択 ② それぞれの座標をシミュレータから取得・画像を撮影 ③ クロスモーダル言語生成モデルにより指示文を生成,ペアを作成 タスク生成手順 - 9 -
  7. 言語生成モデル:多様な表現を生成可能 “Move a square object from a desk to a

    chair” “Put a box on the couch” “Move a statue to the coffee table” “Pick up the apple from the table” “Open the fridge door, put the bottle in the fridge, close the door, wait a few seconds, open the fridge, take the bottle out, and close the door” “Heat the brown round object in the box” “Put a red round object in the silver box” - 10 -
  8. 4つのサブタスクに分割しタスクを実行 1. Navigation 2. Object Location Retrieval (OLR) 4. Carrying

    • スタート→対象物体 • 対象物体→目標領域 入力 自然言語指示文 複数視点画像 出力 予測候補領域 OLRにより特定され た場所への配置 3. Fetching OLRにより特定され た候補の把持 - 11 - ×2 ×2 ×2 ×2
  9. タスク実行:マルチモーダル言語理解モジュールを利用 - 12 - ロボット Navigation Object Location Retrieval Fetching

    Carrying Crawling & Image Collection Object Detection Multimodal Language Comprehension • Object Location Retrieval (OLR)については,さらに 3つのステップに分割 • Crawling & Image Collection • Object Detection • Multimodal Language Comprehension マルチモーダル言語理解モジュールによる指示文 の接地
  10. Crawling & Image Collection, Object Detection 収集画像から対象物体・目標領域候補を作成 ① あらかじめ各マップに与えたM個 のwaypointを巡回し画像収集

    ② 収集した画像及び指示文の類似度 を計算・上位N枚を使用 ② Faster R-CNNを用いて各画像からK個 の候補領域 を検出 • CLIP [Radford+, ICML21]を利用 - 14 -
  11. Multimodal Language Comprehension: 複数候補から最適な組を決定 入力 出力 各候補の予測確率 :自然言語指示文 - 15

    - • CLIP, BERT, ResNetを用い特徴量 抽出 • Transformer layerにてマルチ モーダル特徴量を抽出
  12. 実験設定 - 16 - World Robot Summit 2018 Partner Robot

    Challenge/Virtual Space Competition [Okada+, AR19]で使用された標準シミュレータを拡張 • 連続的な行動の実行が可能 • マルチモーダル言語理解モジュール の訓練・評価はWRS-FCデータセット を使用 • 上記シミュレーション環境を用 いて作成 • 各サンプル,(指示文,対象物体 領域,目標領域)のペアで構成 • 計1210サンプル ×4
  13. 提案手法がタスク成功率でベースライン手法を上回る 手法 Navigation 成功率 [%] OLR 正解率 [%] Fetching 成功率

    [%] Carrying 成功率 [%] ルールベース (WRS2018優勝) 100 (40/40) 0 (0/40) 0 (0/0) 0 (0/0) 提案手法 100 (40/40) 20 (8/8) 100 (8/8) 12.5 (1/8) • Navigationタスクの解法は同様 • カッコ内は,成功数/試行回数 • 各サブタスクが成功しなかった場合,次のサブタスクは行わない - 17 -
  14. 提案手法がタスク成功率でベースライン手法を上回る 手法 Navigation 成功率 [%] OLR 正解率 [%] Fetching 成功率

    [%] Carrying 成功率 [%] ルールベース (WRS2018優勝) 100 (40/40) 0 (0/40) 0 (0/0) 0 (0/0) 提案手法 100 (40/40) 20 (8/8) 100 (8/8) 12.5 (1/8) • Navigationタスクの解法は同様 • カッコ内は,成功数/試行回数 • 各サブタスクが成功しなかった場合,次のサブタスクは行わない - 18 - 各サブタスクの成功率において,ベースライン手法を上回る
  15. 定性的結果:タスクの生成に関する失敗例 対象物体 目標領域 生成文 “Go to the bedroom, move a

    square object from the shelf to the side table”  - 21 - 指示文の理解・実行については成功 ×16
  16. マルチモーダル言語理解モデルについても,ベースライン 手法を上回る結果 - 22 - 手法 対象物体 正解率 [%] 目標領域

    正解率 [%] TdU [Ishikawa+, RA-L21] 81.64 ± 4.36 79.51 ± 1.00 提案手法 87.05 ± 2.02 82.46 ± 1.60 • 5回行った評価の平均値及び標準偏差 • 対象物体・目標領域それぞれでベースライン 手法を上回る • 対象物体・目標領域の予測共に,p<0.05 “Take the blue object from the sofa and put it on the low table” 対象物体 (上図) 目標領域 (下図) 正解領域 (赤四角) • 共に提案手法は 予測成功,ベー スライン手法は 予測失敗