[RSJ22]Automation and execution of symbol-grounded fetch-and-carry tasks

神原元就，杉浦孔明慶應義塾大学記号接地されたfetch-and-carryタスクの自動化と実行

自然言語指示文を理解・実行する生活支援ロボットは実用性が高い 1 自然言語により指示，タスクの実行ができれば利便性が高い未だに言語理解性能が不十分生活支援ロボットの実用化

既存システムの課題①：参照表現を用いた指示文の接地が困難 2 右？2番目？指定された物体・場所を理解するためには，参照表現を理解する必要がある物体における記号接地に関する能力が不十分課題右から2番目の皿をとって

既存システムの課題②：多様なタスクでの評価が困難 3 ① 人間が全ての指示文を付与 ② ルールベースによる指示文自動生成 ☺ 曖昧性を含む，多様な指示文による訓練が可能 
大量かつランダムな状況に基づくon-the-flyな文生成が困難 ☺ 大量の指示文の作成が容易  指示文のパターンが限られる “Go to the bedroom, and bring the rabbit doll on the side table” “Go to XX, and bring YY” ☺ “Bring YY from XX” 

関連研究： Fetch-and-carryタスクにおいて，生成と理解を同時に扱う手法はない 4 手法概要 OMT [Fukushima+, ICRA22] Transformerを利用したObject goal
navigationモデルの一つ REVERIE [Qi+, CVPR20] Object goal navigationとして，REVERIEタスクを提案 ALFRED [Shridhar+, CVPR20] 新しいナビゲーションベンチマーク，ALFLEDを提案 TdU [Ishikawa+, RA-L21] 物体間の関係性を学習する，物体操作指示文理解モデルの一つ CRT [Kambara+, RA-L21] 位置情報参照表現生成を行う物体操作指示文生成モデルの一つ TdUのネットワーク図 CRTのネットワーク図

問題設定：Fetch-and-Carry with Object Grounding (FCOG)タスク 5 与えられた指示文について，自然言語理解モデルによって理解，物体に関して記号接地することで特定しつつfetch-and-carryタスクを実行 4つのサブタスク •
移動 • Object grounding • 物体把持 • 物体配置 “Go to the bedroom, grasp the rabbit doll and send it to the corner sofa” 対象物体：把持・移動する物体目標領域：移動先

サブタスク：本研究ではobject groundingに注目 6 1. 移動 2. Object grounding 4. 物体配置
• スタート→対象物体 • 対象物体→目標領域入力自然言語指示文複数視点画像出力候補領域が正解である確率の予測値 Object groundingにより特定された場所への配置 3. 物体把持 Object groundingにより特定された候補の把持

提案手法 7

提案手法：環境中の撮影画像から対象物体・目標領域候補を作成 8 • 赤，オレンジ三角：撮影地点 • 撮影画像から物体を検出，候補とする • 対象物体と目標領域の候補ペアを作成，それぞれを評価

言語理解モジュール：複数候補から最適な組を決定 9 ベース：Target-dependent UNITER [Ishikawa+, RA-L21] 入力：複数の対象物体，目標領域の候補のペア出力：各ペアが正解のペアであるかについての確率の予測値
予測確率最大を正解候補とする

言語生成モジュール：シミュレーションの自動化 10 対象領域目標領域画像中の領域群 … 既存システムでは評価のためのタスクが固定されている提案手法：言語生成モジュールによる指示文自動生成 CRT [Kambara+,
RA-L21] 出力：”Put a toy wooden car on the table” あらかじめ撮影した，対象物体及び目標領域の画像及びbbox 情報入力出力自然言語指示文解決策：ランダムな状況に基づくon-the-fly生成チートが可能

言語生成モジュール：多様な表現を生成可能 11 “Put a red round object in the silver
box” “Move a square object from a desk to a chair” “Put a box on the couch” “Move a statue to the coffee table” “Pick up the apple from the table” “Open the fridge door, put the bottle in the fridge, close the door, wait a few seconds, open the fridge, take the bottle out, and close the door” “Heat the brown round object in the box”

人手によるコーディングとは乖離がある一方，学習ベース手法によりルールベース作成されたタスクの実行に成功 12 手法 Object grounding 精度 [%] 物体把持成功率
[%] 物体配置成功率 [%] ルールベース理解 (WRS2018優勝) 92.9 (13/14) 100.0 (13/13) 38.5 (5/13) 提案手法 7.1 (1/14) 100.0 (1/1) 0.0 (0/1) • 文生成はルールベース • 移動タスクについては，全手法で同じであるため省略 • カッコ内は，成功数/試行回数． • 各サブタスクが成功しなかった場合，次のサブタスクは行わない

定性的結果：Object grounding, 物体把持についての成功例 13 生成文： “Go to the bedroom, put
a candle in the desk” • 指示文から尤度の高い物体を選択・把持 • 目標領域：指示文の理解については適切

まとめ 14 • 生活支援ロボットにおける，自然言語理解能力は不十分 • Fetch-and-Carry with Object Groundingタスクの提案 •
言語生成・理解モジュールにより，fetch-and-carryタスクについてシステムを自動化 • 言語理解モジュールの性能を各サブタスクを通じ確認

[RSJ22]Automation and execution of symbol-groun...

[RSJ22]Automation and execution of symbol-grounded fetch-and-carry tasks

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

神原元就，杉浦孔明慶應義塾大学記号接地されたfetch-and-carryタスクの自動化と実行

自然言語指示文を理解・実行する生活支援ロボットは実用性が高い 1 自然言語により指示，タスクの実行ができれば利便性が高い未だに言語理解性能が不十分生活支援ロボットの実用化

既存システムの課題②：多様なタスクでの評価が困難 3 ① 人間が全ての指示文を付与 ② ルールベースによる指示文自動生成 ☺ 曖昧性を含む，多様な指示文による訓練が可能 

関連研究： Fetch-and-carryタスクにおいて，生成と理解を同時に扱う手法はない 4 手法概要 OMT [Fukushima+, ICRA22] Transformerを利用したObject goal

問題設定：Fetch-and-Carry with Object Grounding (FCOG)タスク 5 与えられた指示文について，自然言語理解モデルによって理解，物体に関して記号接地することで特定しつつfetch-and-carryタスクを実行 4つのサブタスク •

サブタスク：本研究ではobject groundingに注目 6 1. 移動 2. Object grounding 4. 物体配置

提案手法 7

提案手法：環境中の撮影画像から対象物体・目標領域候補を作成 8 • 赤，オレンジ三角：撮影地点 • 撮影画像から物体を検出，候補とする • 対象物体と目標領域の候補ペアを作成，それぞれを評価

言語理解モジュール：複数候補から最適な組を決定 9 ベース：Target-dependent UNITER [Ishikawa+, RA-L21] 入力：複数の対象物体，目標領域の候補のペア出力：各ペアが正解のペアであるかについての確率の予測値

言語生成モジュール：シミュレーションの自動化 10 対象領域目標領域画像中の領域群 … 既存システムでは評価のためのタスクが固定されている提案手法：言語生成モジュールによる指示文自動生成 CRT [Kambara+,

言語生成モジュール：多様な表現を生成可能 11 “Put a red round object in the silver

人手によるコーディングとは乖離がある一方，学習ベース手法によりルールベース作成されたタスクの実行に成功 12 手法 Object grounding 精度 [%] 物体把持成功率

定性的結果：Object grounding, 物体把持についての成功例 13 生成文： “Go to the bedroom, put

まとめ 14 • 生活支援ロボットにおける，自然言語理解能力は不十分 • Fetch-and-Carry with Object Groundingタスクの提案 •