[Journal club] Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment

慶應義塾大学杉浦孔明研究室是方諒介 Following Natural Language Instructions for Household Tasks
with Landmark Guided Search and Reinforced Pose Adjustment Michael Murray and Maya Cakmak (University of Washington) RA-L & IROS 2022 Michael Murray and Maya Cakmak. "Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment." RA-L 2022.

概要背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース提案 ✓ Landmark Guided Searchによる探索 ✓
Reinforced Pose Adjustment に基づくmanipulation 結果 ✓ ALFRED (= 物体操作を含むVision-Language Navigationの標準ベンチマーク) において、SOTAを8.92%更新 2

背景：自然言語はロボットに対する直感的なインタフェース ◼ 一般ユーザが習熟不要なインタフェースが理想的  Visual Programming, Teleoperation, Demonstration, etc. ◼
ALFRED [Shridhar+, CVPR20] ◼ 屋内環境において、自然言語を用いてロボットに家事タスクを指示 ◼ シミュレータ：AI2-THOR [Kolve+, 17] 3 https://scratch.mit.edu/ e.g. Scratch

関連研究：3D semantic voxel mapの構築が不十分 ◼ 3D semantic voxel mapを用いる手法が発展 ◼
課題  不完全 → 環境の探索不足  ノイズが多い → semantic segmentation/深度予測の性能不足 4 Model Detail HLSM [Blukis+, CoRL21] random searchにより対象物体を探索 FILM [Min+, ICLR22] semantic search policyで対象物体の位置を予測して探索 HLSM

提案手法：LGS-RPA ◼ 5つの主要モジュールから構成 ① Language Processing, ② Perception, ③ Navigation,
④ Landmark Guided Search (LGS), ⑤ Reinforced Pose Adjustment (RPA) 5

① Language Processing：次のサブゴールを予測 ◼ 2つのBERT [Devlin+, NAACL19] transformerで構成入力：① 指示文
𝐿 ② 過去のサブゴール 𝐻𝑘 = 𝑔𝑖 , 𝑖<𝑘 出力：次のサブゴール 𝑔𝑘 = (𝑡𝑦𝑝𝑒𝑘 , 𝑡𝑎𝑟𝑔𝑒𝑡𝑘 ) 6 𝑔𝑖 , 𝑖<𝑘 は自然言語のフレーズに変換 e.g. PickupObject (Apple) → “pick up apple” それぞれ、分布 𝑃 𝑡𝑦𝑝𝑒𝑘 𝐿, 𝐻𝑘 , 𝑃(𝑡𝑎𝑟𝑔𝑒𝑡𝑘 |𝐿, 𝐻𝑘 ) からサンプリング 𝑡𝑦𝑝𝑒𝑘 ：行動の種類（e.g. GotoLocation, PickupObject） 𝑡𝑎𝑟𝑔𝑒𝑡𝑘 ：対象物体（e.g. Sink, Apple） BERT

② Perception：3D semantic voxel mapを更新 ◼ HLSM [Blukis+, CoRL21] と同様に、U-Net
[Ronneberger+, MICCAI15] を使用入力：一人称視点のRGB画像 𝑜𝑡 出力：3D semantic voxel map 𝑉𝑡 ∈ 0,1 𝑋×𝑌×𝑍×𝐶 7 U-Net semantic segmentation画像 𝑜𝑡 𝑆 および深度画像 𝑜𝑡 𝐷 から生成

③ Navigation：target waypointへの最短経路を導出 8 https://devforum.roblox.com/t/take-out-pitch-from-rotation-matrix-while-preserving-yaw-and-roll/95204 ◼ ダイクストラ法に基づくdeterministicなshortest path planning 入力：①
現在のサブゴール 𝑔𝑘 (𝑡𝑦𝑝𝑒𝑘 ∈ {𝐺𝑜𝑡𝑜𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛}) ② target waypoint 𝑤 = (𝑥, 𝑦, 𝜔) ③ 3D semantic voxel map 𝑉𝑡 を高さ方向に加算した2D map 𝑀𝑡 ∈ 0,1 𝑋×𝑌×𝐶 出力：navigation action 𝑎𝑡 𝜔：ヨー角

④ Landmark Guided Search：対象物体、landmarkの優先度順で探索 ◼ 対象物体が観測不能な場合、landmark (= 関連度の高い目印) を予測し探索出力：landmarkに関する分布
𝑃(𝑙𝑎𝑛𝑑𝑚𝑎𝑟𝑘𝑘 |𝑡𝑎𝑟𝑔𝑒𝑡𝑘 , 𝐿, 𝐻𝑘 ) 9 例：対象物体”DeskLamp”が”Desk”に隠れて初期位置から観測不能例：対象物体”mug”の landmarkを”Cupboard”と予測 export policyが対象物体より先に receptacle objectへnavigationするサンプルでfine-tuning

⑤ Reinforced Pose Adjustment：manipulation失敗時に再試行可能 ◼ 「人間による教示」+「強化学習」の2段階でpolicy 𝜋𝑝 を学習 10 例：”stove”の上にある”microwave”を開くため、LookUpにより視界に入れて再試行

実験設定：ALFRED [Shridhar+, CVPR20] ◼ 7種類のタスクを120種類の屋内環境で実施 ◼ 自然言語による指示：High/Low-levelの2パターン ◼ 評価指標 ①
Success Rate (SR) ② Goal Condition Success Rate (GC) ③ Path Length Weighted Success Rate (PLWSR) ④ Path Length Weighted Goal Condition Success Rate (PLWGC) 11 目標条件の成功割合（= 部分点）を考慮要したaction数で重み付け

定量的結果：Test UnseenにおいてSOTAを更新 ◼ 考察 ✓ Low-level + High-level：Test UnseenにおいてSOTAを8.92%更新 ✓
High-level only：Test Seen/Unseenともに全指標でSOTAを更新 12

Ablation Study：LGS, RPAともに有効 ◼ 考察 ✓ LGS：ランダムな探索より優位 ✓ RPA：「強化学習」と「人間による教示」の両方を組み合わせる場合が最良 13
RL：Reinforcement Learning HITL：Human-In-The-Loop feedback

定性的結果：LGSによる探索ルート短縮/RPAによるmanipulation再試行 ☺ LGSにより、”mug”のlandmarkとして”counter-top”を予測 ☺ RPAにより、手前に下がってから冷蔵庫を開くことに成功 14 LGS ランダム ☆：対象物体”mug” 初期位置から遠く、
視認不可ボディが障害となり開けない十分なスペースを確保

まとめ背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース提案 ✓ Landmark Guided Searchによる探索 ✓
Reinforced Pose Adjustment に基づくmanipulation 結果 ✓ ALFRED (= 物体操作を含むVision-Language Navigationの標準ベンチマーク) において、SOTAを8.92%更新 15

Appendix：Perception, Language Processingに関するOracle条件 ◼ 考察 ✓ Perceptionは大幅に改善の余地あり ✓ Language Processingは改善幅が小さいため既に十分な性能
16

Appendix：探索のフローチャート 17

[Journal club] Following Natural Language Instr...

[Journal club] Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 Following Natural Language Instructions for Household Tasks

概要背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース提案 ✓ Landmark Guided Searchによる探索 ✓

背景：自然言語はロボットに対する直感的なインタフェース ◼ 一般ユーザが習熟不要なインタフェースが理想的  Visual Programming, Teleoperation, Demonstration, etc. ◼

関連研究：3D semantic voxel mapの構築が不十分 ◼ 3D semantic voxel mapを用いる手法が発展 ◼

提案手法：LGS-RPA ◼ 5つの主要モジュールから構成 ① Language Processing, ② Perception, ③ Navigation,

① Language Processing：次のサブゴールを予測 ◼ 2つのBERT [Devlin+, NAACL19] transformerで構成入力：① 指示文

② Perception：3D semantic voxel mapを更新 ◼ HLSM [Blukis+, CoRL21] と同様に、U-Net

③ Navigation：target waypointへの最短経路を導出 8 https://devforum.roblox.com/t/take-out-pitch-from-rotation-matrix-while-preserving-yaw-and-roll/95204 ◼ ダイクストラ法に基づくdeterministicなshortest path planning 入力：①

④ Landmark Guided Search：対象物体、landmarkの優先度順で探索 ◼ 対象物体が観測不能な場合、landmark (= 関連度の高い目印) を予測し探索出力：landmarkに関する分布

⑤ Reinforced Pose Adjustment：manipulation失敗時に再試行可能 ◼ 「人間による教示」+「強化学習」の2段階でpolicy 𝜋𝑝 を学習 10 例：”stove”の上にある”microwave”を開くため、LookUpにより視界に入れて再試行

実験設定：ALFRED [Shridhar+, CVPR20] ◼ 7種類のタスクを120種類の屋内環境で実施 ◼ 自然言語による指示：High/Low-levelの2パターン ◼ 評価指標 ①

定量的結果：Test UnseenにおいてSOTAを更新 ◼ 考察 ✓ Low-level + High-level：Test UnseenにおいてSOTAを8.92%更新 ✓

Ablation Study：LGS, RPAともに有効 ◼ 考察 ✓ LGS：ランダムな探索より優位 ✓ RPA：「強化学習」と「人間による教示」の両方を組み合わせる場合が最良 13

まとめ背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース提案 ✓ Landmark Guided Searchによる探索 ✓

Appendix：Perception, Language Processingに関するOracle条件 ◼ 考察 ✓ Perceptionは大幅に改善の余地あり ✓ Language Processingは改善幅が小さいため既に十分な性能

Appendix：探索のフローチャート 17