Slide 1

Slide 1 text

神原 元就,杉浦 孔明 慶應義塾大学 記号接地されたfetch-and-carryタスクの 自動化と実行

Slide 2

Slide 2 text

自然言語指示文を理解・実行する生活支援ロボットは実用性が高い 1 自然言語により指示,タスクの 実行ができれば利便性が高い 未だに言語理解性能が 不十分 生活支援ロボットの実用化

Slide 3

Slide 3 text

既存システムの課題①:参照表現を用いた指示文の接地が困難 2 右?2番目? 指定された物体・場所を理解するためには,参照表現を理解する必要がある 物体における記号接地に関する能力が不十分 課題 右から2番目の皿をとって

Slide 4

Slide 4 text

既存システムの課題②:多様なタスクでの評価が困難 3 ① 人間が全ての指示文を付与 ② ルールベースによる指示文自動生成 ☺ 曖昧性を含む,多様な指示文に よる訓練が可能  大量かつランダムな状況に基づ くon-the-flyな文生成が困難 ☺ 大量の指示文の作成が容易  指示文のパターンが限られる “Go to the bedroom, and bring the rabbit doll on the side table” “Go to XX, and bring YY” ☺ “Bring YY from XX” 

Slide 5

Slide 5 text

関連研究: Fetch-and-carryタスクにおいて,生成と理解を同時に扱う手法はない 4 手法 概要 OMT [Fukushima+, ICRA22] Transformerを利用したObject goal navigationモデルの一つ REVERIE [Qi+, CVPR20] Object goal navigationとして,REVERIEタスクを提案 ALFRED [Shridhar+, CVPR20] 新しいナビゲーションベンチマーク,ALFLEDを提案 TdU [Ishikawa+, RA-L21] 物体間の関係性を学習する,物体操作指示文理解モデルの一つ CRT [Kambara+, RA-L21] 位置情報参照表現生成を行う物体操作指示文生成モデルの一つ TdUのネットワーク図 CRTのネットワーク図

Slide 6

Slide 6 text

問題設定:Fetch-and-Carry with Object Grounding (FCOG)タスク 5 与えられた指示文について,自然言語理解モデルによって理解,物体に関して 記号接地することで特定しつつfetch-and-carryタスクを実行 4つのサブタスク • 移動 • Object grounding • 物体把持 • 物体配置 “Go to the bedroom, grasp the rabbit doll and send it to the corner sofa” 対象物体:把持・移動する物体 目標領域:移動先

Slide 7

Slide 7 text

サブタスク:本研究ではobject groundingに注目 6 1. 移動 2. Object grounding 4. 物体配置 • スタート→対象物体 • 対象物体→目標領域 入力 自然言語指示文 複数視点画像 出力 候補領域が正解であ る確率の予測値 Object groundingに より特定された場所 への配置 3. 物体把持 Object groundingに より特定された候補 の把持

Slide 8

Slide 8 text

提案手法 7

Slide 9

Slide 9 text

提案手法:環境中の撮影画像から対象物体・目標領域候補を作成 8 • 赤,オレンジ三角:撮影地点 • 撮影画像から物体を検出,候補 とする • 対象物体と目標領域の候補ペア を作成,それぞれを評価

Slide 10

Slide 10 text

言語理解モジュール:複数候補から最適な組を決定 9 ベース:Target-dependent UNITER [Ishikawa+, RA-L21] 入力:複数の対象物体,目標領域の 候補のペア 出力:各ペアが正解のペアであるか についての確率の予測値 予測確率最大を正解候補とする

Slide 11

Slide 11 text

言語生成モジュール:シミュレーションの自動化 10 対象領域 目標領域 画像中の領域群 … 既存システムでは評価のためのタスクが固定されている 提案手法:言語生成モジュールによる指示文自動生成 CRT [Kambara+, RA-L21] 出力:”Put a toy wooden car on the table” あらかじめ撮影した,対象物体 及び目標領域の画像及びbbox 情報 入力 出力 自然言語指示文 解決策:ランダムな状況に基づくon-the-fly生成 チートが可能

Slide 12

Slide 12 text

言語生成モジュール:多様な表現を生成可能 11 “Put a red round object in the silver box” “Move a square object from a desk to a chair” “Put a box on the couch” “Move a statue to the coffee table” “Pick up the apple from the table” “Open the fridge door, put the bottle in the fridge, close the door, wait a few seconds, open the fridge, take the bottle out, and close the door” “Heat the brown round object in the box”

Slide 13

Slide 13 text

人手によるコーディングとは乖離がある一方,学習ベース手法によりルール ベース作成されたタスクの実行に成功 12 手法 Object grounding 精度 [%] 物体把持 成功率 [%] 物体配置 成功率 [%] ルールベース理解 (WRS2018優勝) 92.9 (13/14) 100.0 (13/13) 38.5 (5/13) 提案手法 7.1 (1/14) 100.0 (1/1) 0.0 (0/1) • 文生成はルールベース • 移動タスクについては,全手法で同じであるため省略 • カッコ内は,成功数/試行回数. • 各サブタスクが成功しなかった場合,次のサブタスクは行わない

Slide 14

Slide 14 text

定性的結果:Object grounding, 物体把持についての成功例 13 生成文: “Go to the bedroom, put a candle in the desk” • 指示文から尤度の高い物体 を選択・把持 • 目標領域:指示文の理解に ついては適切

Slide 15

Slide 15 text

まとめ 14 • 生活支援ロボットにおける,自然言語理解能力は不十分 • Fetch-and-Carry with Object Groundingタスクの提案 • 言語生成・理解モジュールにより,fetch-and-carryタスクについてシステム を自動化 • 言語理解モジュールの性能を各サブタスクを通じ確認