Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ23] Leveraging a Large Language Model and a...

[RSJ23] Leveraging a Large Language Model and a Spatial Concept Model for Action Planning of a Daily Life Support Robot

Shoichi Hasegawa

November 09, 2023
Tweet

More Decks by Shoichi Hasegawa

Other Decks in Research

Transcript

  1. 生活支援ロボットの行動計画のための 大規模言語モデルと場所概念モデルの活用 立命館大学 〇長谷川 翔一,伊藤 昌樹,山木 良輔,坂口 太一, 萩原 良信,

    谷口 彰,エル ハフィ ロトフィ,谷口 忠大 第41回 日本ロボット学会学術講演会 (RSJ2023) [1K3-06] 基盤モデルの実ロボット応用
  2. 大規模言語モデルによる行動計画の課題 3 開発者にとって,現場の環境ですべての知識を記述するのは負担が大きい. e.g., ChatGPT for Robotics [1], SayCan [2],

    Inner Monologue [3] 大規模言語モデル 現場の知識 • 物体リスト • 場所のリスト • 物体の配置 ・・・ ロボットのスキル • Navigation • Object Detection • Picking ・・・ 言語指示:Bring a cup to the kitchen. 行動列 navigation (living_room) ・・・ Bedroomにあるのは, book, pen, chair, …に, 場所はdining, kitchen,…に, … 記載することがいっぱいだよ! [1] S. Vemprala, et al. “ChatGPT for Robotics: Design Principles and Model Abilities“, Microsoft Technical Report-2023-8, 2023. [2] M. Ahn, et al. "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances." arXiv preprint arXiv:2204.01691, 2022. [3] W. Huang, et al. “Inner Monologue: Embodied Reasoning through Planning with Language Models " arXiv preprint arXiv: 2207.05608, 2022. 現場環境
  3. 場所の [4] A. Taniguchi, et.al. “Improved and scalable online learning

    of spatial concepts and language models with mapping”, Autonomous Robots, Vol.44, pp927-946, 2020. [5] S. Hasegawa, et al. “Inferring Place-Object Relationships by Integrating Probabilistic Logic and Multimodal Spatial Concepts”, SII , pp.1-8, 2023. SpCoSLAM (Online Spatial Concept Acquisition and SLAM) [4] に基づく 場所概念モデル [5] • パーティクルフィルタを用いた逐次ベイズ学習 • 物体ラベルから場所の単語のクロスモーダル推論 現場環境における知識獲得手法 - 場所概念モデル 画像 𝒇𝒕 CNN 場所の単語 𝒘𝒕 (Bag-of-Words) “living”, “bed”… 物体 𝒐𝒕 (Bag-of-Objects) 場所の領域を可視化した様子 空間のまとまり毎に場所や物体名の を持ち, 異なるモダ ィ間でクロスモ ダル 論ができるため使用
  4. 研究目的 5 目的 場所概念モデルで得た現場知識を大規模言語モデルに与えると, タスクの成功数や探索する部屋数をどの程度改善可能かを検証 ブタのぬいぐるみを 探してもらえる? 対象物がありそうな部屋に移動し, 次は物体検出. 探索する部屋数の削減

    現場知識に基づき 大規模言語モデルで行動計画 一部屋の訪問で, 対象物を見つけた. 解決策 ロボットが環境内で構築した現場知識を大規模言語モデルに与える. 課題 開発者にとって,現場の環境ですべての知識を記述するのは負担が大きい.
  5. 提案システム スキル ット a i a ion b ec e

    ec ion ick ace 生活支援タスクの 行 命 or e による 行動計画 言語 rin a c p o he ki chen 物体 画 living , 言語 置 , , 現場知識 物体 場所 物体の配置 的な行動 行 場所概念モデルに 現場知識の と記述 プロンプト 6
  6. スキル ット a i a ion b ec e ec

    ion ick ace 生活支援タスクの 行 命 or e による 行動計画 言語 rin a c p o he ki chen 物体 画 living , 言語 置 , , 現場知識 物体 場所 物体の配置 的な行動 行 場所概念モデルに 現場知識の と記述 プロンプト 現場知識のプロンプトの作 7 𝑃 𝑤𝑡 𝑖𝑡 , 𝑊, 𝜙, 𝜋) ∝ ෍ 𝐶𝑡 𝑃 𝑤𝑡 𝑊𝐶𝑡 𝑃 𝑖𝑡 𝜙𝐶𝑡 𝑃(𝐶𝑡 |𝜋) 場所概念モデル 各空間領域𝑖𝑡 に おける場所に関する 単語𝑤𝑡 を推論. In each region, words related to the following locations are likely to be observed. place1: [living_room, sofa, desk, chair, tv] place2: [sink, refrigerator, desk, chair, kitchen] place3: [toy, shelf, toy_room, box, bed] “living” 場所の単語に関するプロ プト
  7. スキル ット a i a ion b ec e ec

    ion ick ace 生活支援タスクの 行 命 or e による 行動計画 言語 rin a c p o he ki chen 物体 画 living , 言語 置 , , 現場知識 物体 場所 物体の配置 的な行動 行 場所概念モデルに 現場知識の と記述 プロンプト 現場知識のプロンプトの作 8 場所概念モデル “living” List of probabilities that an object exists at [place1, place2, place3]: bottle: [0.8, 0.15, 0.05] cup: [0.7, 0.2, 0.1] stuffed_toy: [0.1, 0.05, 0.85] 𝑃 𝑖𝑡 𝑜𝑡 , 𝜉, 𝜙, 𝜋) ∝ ෍ 𝐶𝑡 𝑃 𝑖𝑡 𝜙𝐶𝑡 𝑃 𝑜𝑡 𝜉𝐶𝑡 𝑃(𝐶𝑡 |𝜋) 各空間領域𝑖𝑡 に おける物体ラベル 𝑜𝑡 を推論. 物体配 に関するプロ プト 場所概念モデルの学習で た確率 の パラメ タを表現するためにこのように作成
  8. GPT-4による行動計画 9 GPT-4 [6]による行動計画 プロ プト 現場知識 ロボットのスキル ット 場所に関する単語の情報

    place1: [living_room, sofa, desk, chair, tv] … 物体の配 情報 bottle: [0.8, 0.15, 0.05] … 1. navigation (location_name) 2. object_detection (object_name) 3. pick (object_name) 4. place (location_name) These behaviors return "succeeded" or "failed". If "failed" is returned, try the same or another behavior again. 言語指示 Could you please find a snack box I'm looking for? プロンプト [6] OpenAI, “GPT-4 Technical Report”, arXiv preprint arXiv: 2303.08774, 2023. Prompt is here: https://github.com/Shoichi-Hasegawa0628/rsj2023_prompt GPT-4 ・ ・ スキル ット a i a ion b ec e ec ion ick ace 生活支援タスクの 行 命 or e による 行動計画 言語 rin a c p o he ki chen 物体 画 living , 言語 置 , , 現場知識 物体 場所 物体の配置 的な行動 行 場所概念モデルに 現場知識の と記述 プロンプト 現場知識に き行動計画を行うため,探索する部屋数の削減が期待できる.
  9. 動作エンジンによる行動実行 10 現場環境からのFeedbackを るために, GPT-4と動作エ ジ を接続する. GPT-4 プロンプト 動作エンジン

    (FlexBE [7]) [7] P. Schillinger, et al. “Human-Robot Collaborative High-Level Control with Application to Rescue Robotics,” ICRA, pp. 2796–2802, 2016. ナビゲーション 物体検出 置く 拾う Failed Succeed ナビゲーションの 目標地点に設定した座標 へ経路計画できない. 拾う & 置くの 逆運動学が計算できない. 物体検出の 対象物が検出されない. 命 現場環境 スキル ット a i a ion b ec e ec ion ick ace 生活支援タスクの 行 命 or e による 行動計画 言語 rin a c p o he ki chen 物体 画 living , 言語 置 , , 現場知識 物体 場所 物体の配置 的な行動 行 場所概念モデルに 現場知識の と記述 プロンプト
  10. 実験 11 目的 場所概念モデルで た現場知識を大規模言語モデルに用いると, 物体探索における部屋の訪問数やタスクの 数をどの程度改善可能か検証 験手順 1. 現場環境の学習

    2. 言語指示の生 3. 物体探索タスクの実施 4. 比較手法との評価 条件 • 地図は既知とする. • 物体探索前に場所概念モデルで物体の配置場所の学習を行う. • “対象物が配置された部屋にロボットが訪問した時,タスク ”とした. b
  11. 場所概念モデルにより物体の配 場所を学習 観測情報 • ロボットの自己 置(XY) 𝑥𝑡 • 場所を表す画 𝑓𝑡

    • 場所毎の物体の検出頻度 𝑜𝑡 • 場所に関する発話文 𝑤𝑡 1場所で30データを観測して学習 (計120データ) 1. living 3. bedroom 2. kitchen 4. bathroom 手順1 - 現場環境の学習 物体 g Ob e 画像 場所の単語 g d living , 場所の 最終学習ス ップで た確率 パラメ タを用いて,物体探索を行う 観測データの収集のイメージ ×5 12
  12. • Could you please find the object I'm looking for?

    • I need you to locate the object for me. • Please conduct a search for the object. 手順2 - 言語指示の生 13 1. 物体の種類数:6個 [8] 2. 物体 :3パターン [8] 3. 指示文のフレーズ:3パターン 物体の 種類 snack box biscuit box cracker case pig plush toy stuffed pig cuddly pig dish platter dinner plate plastic airplane toy plane wind-up airplane yellow fruit cavendish tropical fruit mug drinking cup espresso cup 物体名 指示文のフレ ズ [8] 長谷川翔一, et al., “大規模言語モデルと場所概念モデルの統合による未観測物体の語彙を含んだ言語指示理解,” JSAI, 2023. 以下の3点を組み合わせて54個の指示を作成 指示文の数を増やすために,物体 と指示文のフレーズの言い換えをChatGPT を用いて準備した. 赤枠に探索する 物体 が入る.
  13. 手順3 - 物体探索タスクの実施 14 Bad (部屋の訪問数が3回) Good (部屋の訪問数が1回) ×16 ×16

    対象物 対象物 ロボットに探索指示を与える Could you please find the pig plush toy I'm looking for? 対象物を発見するまでに, 一部屋を訪問した. “対象物が配 される部屋にロボットが訪問した”時を,タスクの とした.
  14. 手順4 - 比較手法との評価 15 1. 提案 ス ム (場所概念モデル +

    GPT-4 + FlexBE) 現場知識のプロンプト:場所概念モデルで獲得した知識 (場所に関する単 語,物体の配置)をGPT-4に入力する. 現場知識 場所に関する単語の情報 place1: [living_room, sofa, desk, chair, tv] … 物体の配 情報 bottle: [0.8, 0.15, 0.05] … 現場知識 場所名 List of location_name: [“ i in ”, “ki chen, “bedroom”, “ba hroom”] Your initial position is outside of the four rooms. 提案 ス ム ベ スライ 2. ベ スライ (GPT-4 + FlexBE) 現場知識のプロンプト:場所 だけGPT-4に入力する.
  15. 実験結果 16 • 探索時に一部屋の訪問で,対象物を発見した数 (Number of Successes) • 対象物を発見するまでにロボットが部屋を訪問した数 (Room

    Visits) 評価項目 1. ロボットが行動しないケース 例 “I need yo o oca e a m for me ”という指示のとき GPT:"I'm sorry, but I can't assist with that." 手法 Number of Successes Room Visits (avg.) (提案システム) 場所概念モデル + GPT-4 + FlexBE 43 / 54 1.41 (ベースライン) GPT-4 + FlexBE 19 / 54 2.11 験で観察されたケ ス 2. 行動計画が現場知識に沿わないケース 例. 「plastic airplaneが寝室で観測される確率が 最も高い」という環境知識が与えられたとき 大規模言語モデルによる行動計画に,物体の配置 分布だけでなく,”pl sti ”や” irpl ne”といっ た一般用語も影響を与えている? ロボットは最初にリビングに移動した. ユ ザがロボットとイ タラク を取ることが重要. 1.49倍削減 ベースラインは場所概念モデルで得た知識を用いないため,性能が低下したと考察.
  16. まとめ 17 • GPT-4 と場所概念モデル組み合わせたロボットの行動計画システムを提案 • 験 場所概念モデルで た現場知識を大規模言語モデルに用いると, 物体探索における部屋の訪問数やタスクの

    数をどの程度改善可能か検証 • 物体探索時に,一部屋の訪問で発見した回数が向上した. • 他手法よりも,部屋の訪問数を1.49倍以上削減した. https://youtu.be/EzMYOqqJyFk