Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ22]Automation and execution of symbol-groun...

[RSJ22]Automation and execution of symbol-grounded fetch-and-carry tasks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 既存システムの課題②:多様なタスクでの評価が困難 3 ① 人間が全ての指示文を付与 ② ルールベースによる指示文自動生成 ☺ 曖昧性を含む,多様な指示文に よる訓練が可能 

    大量かつランダムな状況に基づ くon-the-flyな文生成が困難 ☺ 大量の指示文の作成が容易  指示文のパターンが限られる “Go to the bedroom, and bring the rabbit doll on the side table” “Go to XX, and bring YY” ☺ “Bring YY from XX” 
  2. 関連研究: Fetch-and-carryタスクにおいて,生成と理解を同時に扱う手法はない 4 手法 概要 OMT [Fukushima+, ICRA22] Transformerを利用したObject goal

    navigationモデルの一つ REVERIE [Qi+, CVPR20] Object goal navigationとして,REVERIEタスクを提案 ALFRED [Shridhar+, CVPR20] 新しいナビゲーションベンチマーク,ALFLEDを提案 TdU [Ishikawa+, RA-L21] 物体間の関係性を学習する,物体操作指示文理解モデルの一つ CRT [Kambara+, RA-L21] 位置情報参照表現生成を行う物体操作指示文生成モデルの一つ TdUのネットワーク図 CRTのネットワーク図
  3. 問題設定:Fetch-and-Carry with Object Grounding (FCOG)タスク 5 与えられた指示文について,自然言語理解モデルによって理解,物体に関して 記号接地することで特定しつつfetch-and-carryタスクを実行 4つのサブタスク •

    移動 • Object grounding • 物体把持 • 物体配置 “Go to the bedroom, grasp the rabbit doll and send it to the corner sofa” 対象物体:把持・移動する物体 目標領域:移動先
  4. サブタスク:本研究ではobject groundingに注目 6 1. 移動 2. Object grounding 4. 物体配置

    • スタート→対象物体 • 対象物体→目標領域 入力 自然言語指示文 複数視点画像 出力 候補領域が正解であ る確率の予測値 Object groundingに より特定された場所 への配置 3. 物体把持 Object groundingに より特定された候補 の把持
  5. 言語生成モジュール:シミュレーションの自動化 10 対象領域 目標領域 画像中の領域群 … 既存システムでは評価のためのタスクが固定されている 提案手法:言語生成モジュールによる指示文自動生成 CRT [Kambara+,

    RA-L21] 出力:”Put a toy wooden car on the table” あらかじめ撮影した,対象物体 及び目標領域の画像及びbbox 情報 入力 出力 自然言語指示文 解決策:ランダムな状況に基づくon-the-fly生成 チートが可能
  6. 言語生成モジュール:多様な表現を生成可能 11 “Put a red round object in the silver

    box” “Move a square object from a desk to a chair” “Put a box on the couch” “Move a statue to the coffee table” “Pick up the apple from the table” “Open the fridge door, put the bottle in the fridge, close the door, wait a few seconds, open the fridge, take the bottle out, and close the door” “Heat the brown round object in the box”
  7. 人手によるコーディングとは乖離がある一方,学習ベース手法によりルール ベース作成されたタスクの実行に成功 12 手法 Object grounding 精度 [%] 物体把持 成功率

    [%] 物体配置 成功率 [%] ルールベース理解 (WRS2018優勝) 92.9 (13/14) 100.0 (13/13) 38.5 (5/13) 提案手法 7.1 (1/14) 100.0 (1/1) 0.0 (0/1) • 文生成はルールベース • 移動タスクについては,全手法で同じであるため省略 • カッコ内は,成功数/試行回数. • 各サブタスクが成功しなかった場合,次のサブタスクは行わない
  8. 定性的結果:Object grounding, 物体把持についての成功例 13 生成文: “Go to the bedroom, put

    a candle in the desk” • 指示文から尤度の高い物体 を選択・把持 • 目標領域:指示文の理解に ついては適切
  9. まとめ 14 • 生活支援ロボットにおける,自然言語理解能力は不十分 • Fetch-and-Carry with Object Groundingタスクの提案 •

    言語生成・理解モジュールにより,fetch-and-carryタスクについてシステム を自動化 • 言語理解モジュールの性能を各サブタスクを通じ確認