Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 是方諒介 Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment Michael Murray and Maya Cakmak (University of Washington) RA-L & IROS 2022 Michael Murray and Maya Cakmak. "Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment." RA-L 2022.

Slide 2

Slide 2 text

概要 背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース 提案 ✓ Landmark Guided Searchによる探索 ✓ Reinforced Pose Adjustment に基づくmanipulation 結果 ✓ ALFRED (= 物体操作を含むVision-Language Navigationの標準ベンチマーク) において、SOTAを8.92%更新 2

Slide 3

Slide 3 text

背景:自然言語はロボットに対する直感的なインタフェース ◼ 一般ユーザが習熟不要なインタフェースが理想的  Visual Programming, Teleoperation, Demonstration, etc. ◼ ALFRED [Shridhar+, CVPR20] ◼ 屋内環境において、自然言語を用いてロボットに家事タスクを指示 ◼ シミュレータ:AI2-THOR [Kolve+, 17] 3 https://scratch.mit.edu/ e.g. Scratch

Slide 4

Slide 4 text

関連研究:3D semantic voxel mapの構築が不十分 ◼ 3D semantic voxel mapを用いる手法が発展 ◼ 課題  不完全 → 環境の探索不足  ノイズが多い → semantic segmentation/深度予測の性能不足 4 Model Detail HLSM [Blukis+, CoRL21] random searchにより対象物体を探索 FILM [Min+, ICLR22] semantic search policyで対象物体の位置を予測して探索 HLSM

Slide 5

Slide 5 text

提案手法:LGS-RPA ◼ 5つの主要モジュールから構成 ① Language Processing, ② Perception, ③ Navigation, ④ Landmark Guided Search (LGS), ⑤ Reinforced Pose Adjustment (RPA) 5

Slide 6

Slide 6 text

① Language Processing:次のサブゴールを予測 ◼ 2つのBERT [Devlin+, NAACL19] transformerで構成 入力:① 指示文 𝐿 ② 過去のサブゴール 𝐻𝑘 = 𝑔𝑖 , 𝑖<𝑘 出力:次のサブゴール 𝑔𝑘 = (𝑡𝑦𝑝𝑒𝑘 , 𝑡𝑎𝑟𝑔𝑒𝑡𝑘 ) 6 𝑔𝑖 , 𝑖<𝑘 は自然言語のフレーズに変換 e.g. PickupObject (Apple) → “pick up apple” それぞれ、分布 𝑃 𝑡𝑦𝑝𝑒𝑘 𝐿, 𝐻𝑘 , 𝑃(𝑡𝑎𝑟𝑔𝑒𝑡𝑘 |𝐿, 𝐻𝑘 ) からサンプリング 𝑡𝑦𝑝𝑒𝑘 :行動の種類(e.g. GotoLocation, PickupObject) 𝑡𝑎𝑟𝑔𝑒𝑡𝑘 :対象物体(e.g. Sink, Apple) BERT

Slide 7

Slide 7 text

② Perception:3D semantic voxel mapを更新 ◼ HLSM [Blukis+, CoRL21] と同様に、U-Net [Ronneberger+, MICCAI15] を使用 入力:一人称視点のRGB画像 𝑜𝑡 出力:3D semantic voxel map 𝑉𝑡 ∈ 0,1 𝑋×𝑌×𝑍×𝐶 7 U-Net semantic segmentation画像 𝑜𝑡 𝑆 および深度画像 𝑜𝑡 𝐷 から生成

Slide 8

Slide 8 text

③ Navigation:target waypointへの最短経路を導出 8 https://devforum.roblox.com/t/take-out-pitch-from-rotation-matrix-while-preserving-yaw-and-roll/95204 ◼ ダイクストラ法に基づくdeterministicなshortest path planning 入力:① 現在のサブゴール 𝑔𝑘 (𝑡𝑦𝑝𝑒𝑘 ∈ {𝐺𝑜𝑡𝑜𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛}) ② target waypoint 𝑤 = (𝑥, 𝑦, 𝜔) ③ 3D semantic voxel map 𝑉𝑡 を高さ方向に加算した2D map 𝑀𝑡 ∈ 0,1 𝑋×𝑌×𝐶 出力:navigation action 𝑎𝑡 𝜔:ヨー角

Slide 9

Slide 9 text

④ Landmark Guided Search:対象物体、landmarkの優先度順で探索 ◼ 対象物体が観測不能な場合、landmark (= 関連度の高い目印) を予測し探索 出力:landmarkに関する分布 𝑃(𝑙𝑎𝑛𝑑𝑚𝑎𝑟𝑘𝑘 |𝑡𝑎𝑟𝑔𝑒𝑡𝑘 , 𝐿, 𝐻𝑘 ) 9 例:対象物体”DeskLamp”が”Desk”に隠れて初期位置から観測不能 例:対象物体”mug”の landmarkを”Cupboard”と予測 export policyが対象物体より先に receptacle objectへnavigationする サンプルでfine-tuning

Slide 10

Slide 10 text

⑤ Reinforced Pose Adjustment:manipulation失敗時に再試行可能 ◼ 「人間による教示」+「強化学習」の2段階でpolicy 𝜋𝑝 を学習 10 例:”stove”の上にある”microwave”を開くため、LookUpにより視界に入れて再試行

Slide 11

Slide 11 text

実験設定:ALFRED [Shridhar+, CVPR20] ◼ 7種類のタスクを120種類の屋内環境で実施 ◼ 自然言語による指示:High/Low-levelの2パターン ◼ 評価指標 ① Success Rate (SR) ② Goal Condition Success Rate (GC) ③ Path Length Weighted Success Rate (PLWSR) ④ Path Length Weighted Goal Condition Success Rate (PLWGC) 11 目標条件の成功割合(= 部分点)を考慮 要したaction数 で重み付け

Slide 12

Slide 12 text

定量的結果:Test UnseenにおいてSOTAを更新 ◼ 考察 ✓ Low-level + High-level:Test UnseenにおいてSOTAを8.92%更新 ✓ High-level only:Test Seen/Unseenともに全指標でSOTAを更新 12

Slide 13

Slide 13 text

Ablation Study:LGS, RPAともに有効 ◼ 考察 ✓ LGS:ランダムな探索より優位 ✓ RPA:「強化学習」と「人間による教示」の両方を組み合わせる場合が最良 13 RL:Reinforcement Learning HITL:Human-In-The-Loop feedback

Slide 14

Slide 14 text

定性的結果:LGSによる探索ルート短縮/RPAによるmanipulation再試行 ☺ LGSにより、”mug”のlandmarkとして”counter-top”を予測 ☺ RPAにより、手前に下がってから冷蔵庫を開くことに成功 14 LGS ランダム ☆:対象物体”mug” 初期位置から遠く、 視認不可 ボディが障害となり開けない 十分なスペースを確保

Slide 15

Slide 15 text

まとめ 背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース 提案 ✓ Landmark Guided Searchによる探索 ✓ Reinforced Pose Adjustment に基づくmanipulation 結果 ✓ ALFRED (= 物体操作を含むVision-Language Navigationの標準ベンチマーク) において、SOTAを8.92%更新 15

Slide 16

Slide 16 text

Appendix:Perception, Language Processingに関するOracle条件 ◼ 考察 ✓ Perceptionは大幅に改善の余地あり ✓ Language Processingは改善幅が小さいため既に十分な性能 16

Slide 17

Slide 17 text

Appendix:探索のフローチャート 17