Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment

[Journal club] Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 Following Natural Language Instructions for Household Tasks

    with Landmark Guided Search and Reinforced Pose Adjustment Michael Murray and Maya Cakmak (University of Washington) RA-L & IROS 2022 Michael Murray and Maya Cakmak. "Following Natural Language Instructions for Household Tasks with Landmark Guided Search and Reinforced Pose Adjustment." RA-L 2022.
  2. 概要 背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース 提案 ✓ Landmark Guided Searchによる探索 ✓

    Reinforced Pose Adjustment に基づくmanipulation 結果 ✓ ALFRED (= 物体操作を含むVision-Language Navigationの標準ベンチマーク) において、SOTAを8.92%更新 2
  3. 背景:自然言語はロボットに対する直感的なインタフェース ◼ 一般ユーザが習熟不要なインタフェースが理想的  Visual Programming, Teleoperation, Demonstration, etc. ◼

    ALFRED [Shridhar+, CVPR20] ◼ 屋内環境において、自然言語を用いてロボットに家事タスクを指示 ◼ シミュレータ:AI2-THOR [Kolve+, 17] 3 https://scratch.mit.edu/ e.g. Scratch
  4. 関連研究:3D semantic voxel mapの構築が不十分 ◼ 3D semantic voxel mapを用いる手法が発展 ◼

    課題  不完全 → 環境の探索不足  ノイズが多い → semantic segmentation/深度予測の性能不足 4 Model Detail HLSM [Blukis+, CoRL21] random searchにより対象物体を探索 FILM [Min+, ICLR22] semantic search policyで対象物体の位置を予測して探索 HLSM
  5. ① Language Processing:次のサブゴールを予測 ◼ 2つのBERT [Devlin+, NAACL19] transformerで構成 入力:① 指示文

    𝐿 ② 過去のサブゴール 𝐻𝑘 = 𝑔𝑖 , 𝑖<𝑘 出力:次のサブゴール 𝑔𝑘 = (𝑡𝑦𝑝𝑒𝑘 , 𝑡𝑎𝑟𝑔𝑒𝑡𝑘 ) 6 𝑔𝑖 , 𝑖<𝑘 は自然言語のフレーズに変換 e.g. PickupObject (Apple) → “pick up apple” それぞれ、分布 𝑃 𝑡𝑦𝑝𝑒𝑘 𝐿, 𝐻𝑘 , 𝑃(𝑡𝑎𝑟𝑔𝑒𝑡𝑘 |𝐿, 𝐻𝑘 ) からサンプリング 𝑡𝑦𝑝𝑒𝑘 :行動の種類(e.g. GotoLocation, PickupObject) 𝑡𝑎𝑟𝑔𝑒𝑡𝑘 :対象物体(e.g. Sink, Apple) BERT
  6. ② Perception:3D semantic voxel mapを更新 ◼ HLSM [Blukis+, CoRL21] と同様に、U-Net

    [Ronneberger+, MICCAI15] を使用 入力:一人称視点のRGB画像 𝑜𝑡 出力:3D semantic voxel map 𝑉𝑡 ∈ 0,1 𝑋×𝑌×𝑍×𝐶 7 U-Net semantic segmentation画像 𝑜𝑡 𝑆 および深度画像 𝑜𝑡 𝐷 から生成
  7. ③ Navigation:target waypointへの最短経路を導出 8 https://devforum.roblox.com/t/take-out-pitch-from-rotation-matrix-while-preserving-yaw-and-roll/95204 ◼ ダイクストラ法に基づくdeterministicなshortest path planning 入力:①

    現在のサブゴール 𝑔𝑘 (𝑡𝑦𝑝𝑒𝑘 ∈ {𝐺𝑜𝑡𝑜𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛}) ② target waypoint 𝑤 = (𝑥, 𝑦, 𝜔) ③ 3D semantic voxel map 𝑉𝑡 を高さ方向に加算した2D map 𝑀𝑡 ∈ 0,1 𝑋×𝑌×𝐶 出力:navigation action 𝑎𝑡 𝜔:ヨー角
  8. ④ Landmark Guided Search:対象物体、landmarkの優先度順で探索 ◼ 対象物体が観測不能な場合、landmark (= 関連度の高い目印) を予測し探索 出力:landmarkに関する分布

    𝑃(𝑙𝑎𝑛𝑑𝑚𝑎𝑟𝑘𝑘 |𝑡𝑎𝑟𝑔𝑒𝑡𝑘 , 𝐿, 𝐻𝑘 ) 9 例:対象物体”DeskLamp”が”Desk”に隠れて初期位置から観測不能 例:対象物体”mug”の landmarkを”Cupboard”と予測 export policyが対象物体より先に receptacle objectへnavigationする サンプルでfine-tuning
  9. 実験設定:ALFRED [Shridhar+, CVPR20] ◼ 7種類のタスクを120種類の屋内環境で実施 ◼ 自然言語による指示:High/Low-levelの2パターン ◼ 評価指標 ①

    Success Rate (SR) ② Goal Condition Success Rate (GC) ③ Path Length Weighted Success Rate (PLWSR) ④ Path Length Weighted Goal Condition Success Rate (PLWGC) 11 目標条件の成功割合(= 部分点)を考慮 要したaction数 で重み付け
  10. まとめ 背景 ✓ 一般ユーザにとって、自然言語はロボットに対する直感的なインタフェース 提案 ✓ Landmark Guided Searchによる探索 ✓

    Reinforced Pose Adjustment に基づくmanipulation 結果 ✓ ALFRED (= 物体操作を含むVision-Language Navigationの標準ベンチマーク) において、SOTAを8.92%更新 15