[RSJ23] Leveraging a Large Language Model and a Spatial Concept Model for Action Planning of a Daily Life Support Robot

生活支援ロボットの行動計画のための大規模言語モデルと場所概念モデルの活用立命館大学〇長谷川翔一，伊藤昌樹，山木良輔，坂口太一，萩原良信，
谷口彰，エルハフィロトフィ，谷口忠大第41回日本ロボット学会学術講演会 (RSJ2023) [1K3-06] 基盤モデルの実ロボット応用

研究背景 2 生活支援ロボットがユーザに支援を行うときに，ロボットはユーザの言語指示を理解し，その場に適した行動を取ることが重要である．私のところにコップを持ってきてほしい．普段，“コップ”はリビングで見つかりやすいから，リビングに移動しよう. https://global.toyota/jp/download/8725271

大規模言語モデルによる行動計画の課題 3 開発者にとって，現場の環境ですべての知識を記述するのは負担が大きい． e.g., ChatGPT for Robotics [1], SayCan [2],
Inner Monologue [3] 大規模言語モデル現場の知識 • 物体リスト • 場所のリスト • 物体の配置・・・ロボットのスキル • Navigation • Object Detection • Picking ・・・言語指示：Bring a cup to the kitchen. 行動列 navigation (living_room) ・・・ Bedroomにあるのは， book, pen, chair, …に，場所はdining, kitchen，…に, … 記載することがいっぱいだよ！ [1] S. Vemprala, et al. “ChatGPT for Robotics: Design Principles and Model Abilities“, Microsoft Technical Report-2023-8, 2023. [2] M. Ahn, et al. "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances." arXiv preprint arXiv:2204.01691, 2022. [3] W. Huang, et al. “Inner Monologue: Embodied Reasoning through Planning with Language Models " arXiv preprint arXiv: 2207.05608, 2022. 現場環境

場所の [4] A. Taniguchi, et.al. “Improved and scalable online learning
of spatial concepts and language models with mapping”, Autonomous Robots, Vol.44, pp927-946, 2020. [5] S. Hasegawa, et al. “Inferring Place-Object Relationships by Integrating Probabilistic Logic and Multimodal Spatial Concepts”, SII , pp.1-8, 2023. SpCoSLAM (Online Spatial Concept Acquisition and SLAM) [4] に基づく場所概念モデル [5] • パーティクルフィルタを用いた逐次ベイズ学習 • 物体ラベルから場所の単語のクロスモーダル推論現場環境における知識獲得手法 - 場所概念モデル画像 𝒇𝒕 CNN 場所の単語 𝒘𝒕 (Bag-of-Words) “living”, “bed”… 物体 𝒐𝒕 (Bag-of-Objects) 場所の領域を可視化した様子空間のまとまり毎に場所や物体名のを持ち，異なるモダィ間でクロスモダル論ができるため使用

研究目的 5 目的場所概念モデルで得た現場知識を大規模言語モデルに与えると，タスクの成功数や探索する部屋数をどの程度改善可能かを検証ブタのぬいぐるみを探してもらえる？対象物がありそうな部屋に移動し，次は物体検出．探索する部屋数の削減
現場知識に基づき大規模言語モデルで行動計画一部屋の訪問で，対象物を見つけた. 解決策ロボットが環境内で構築した現場知識を大規模言語モデルに与える．課題開発者にとって，現場の環境ですべての知識を記述するのは負担が大きい．

提案システムスキルット a i a ion b ec e
ec ion ick ace 生活支援タスクの行命 or e による行動計画言語 rin a c p o he ki chen 物体画 living , 言語置 , , 現場知識物体場所物体の配置的な行動行場所概念モデルに現場知識のと記述プロンプト 6

スキルット a i a ion b ec e ec
ion ick ace 生活支援タスクの行命 or e による行動計画言語 rin a c p o he ki chen 物体画 living , 言語置 , , 現場知識物体場所物体の配置的な行動行場所概念モデルに現場知識のと記述プロンプト現場知識のプロンプトの作 7 𝑃 𝑤𝑡 𝑖𝑡 , 𝑊, 𝜙, 𝜋) ∝ ෍ 𝐶𝑡 𝑃 𝑤𝑡 𝑊𝐶𝑡 𝑃 𝑖𝑡 𝜙𝐶𝑡 𝑃(𝐶𝑡 |𝜋) 場所概念モデル各空間領域𝑖𝑡 における場所に関する単語𝑤𝑡 を推論． In each region, words related to the following locations are likely to be observed. place1: [living_room, sofa, desk, chair, tv] place2: [sink, refrigerator, desk, chair, kitchen] place3: [toy, shelf, toy_room, box, bed] “living” 場所の単語に関するプロプト

スキルット a i a ion b ec e ec
ion ick ace 生活支援タスクの行命 or e による行動計画言語 rin a c p o he ki chen 物体画 living , 言語置 , , 現場知識物体場所物体の配置的な行動行場所概念モデルに現場知識のと記述プロンプト現場知識のプロンプトの作 8 場所概念モデル “living” List of probabilities that an object exists at [place1, place2, place3]: bottle: [0.8, 0.15, 0.05] cup: [0.7, 0.2, 0.1] stuffed_toy: [0.1, 0.05, 0.85] 𝑃 𝑖𝑡 𝑜𝑡 , 𝜉, 𝜙, 𝜋) ∝ ෍ 𝐶𝑡 𝑃 𝑖𝑡 𝜙𝐶𝑡 𝑃 𝑜𝑡 𝜉𝐶𝑡 𝑃(𝐶𝑡 |𝜋) 各空間領域𝑖𝑡 における物体ラベル 𝑜𝑡 を推論．物体配に関するプロプト場所概念モデルの学習でた確率のパラメタを表現するためにこのように作成

GPT-4による行動計画 9 GPT-4 [6]による行動計画プロプト現場知識ロボットのスキルット場所に関する単語の情報
place1: [living_room, sofa, desk, chair, tv] … 物体の配情報 bottle: [0.8, 0.15, 0.05] … 1. navigation (location_name) 2. object_detection (object_name) 3. pick (object_name) 4. place (location_name) These behaviors return "succeeded" or "failed". If "failed" is returned, try the same or another behavior again. 言語指示 Could you please find a snack box I'm looking for? プロンプト [6] OpenAI, “GPT-4 Technical Report”, arXiv preprint arXiv: 2303.08774, 2023. Prompt is here: https://github.com/Shoichi-Hasegawa0628/rsj2023_prompt GPT-4 ・・スキルット a i a ion b ec e ec ion ick ace 生活支援タスクの行命 or e による行動計画言語 rin a c p o he ki chen 物体画 living , 言語置 , , 現場知識物体場所物体の配置的な行動行場所概念モデルに現場知識のと記述プロンプト現場知識にき行動計画を行うため，探索する部屋数の削減が期待できる．

動作エンジンによる行動実行 10 現場環境からのFeedbackをるために， GPT-4と動作エジを接続する． GPT-4 プロンプト動作エンジン
(FlexBE [7]) [7] P. Schillinger, et al. “Human-Robot Collaborative High-Level Control with Application to Rescue Robotics,” ICRA, pp. 2796–2802, 2016. ナビゲーション物体検出置く拾う Failed Succeed ナビゲーションの目標地点に設定した座標へ経路計画できない．拾う & 置くの逆運動学が計算できない．物体検出の対象物が検出されない. 命現場環境スキルット a i a ion b ec e ec ion ick ace 生活支援タスクの行命 or e による行動計画言語 rin a c p o he ki chen 物体画 living , 言語置 , , 現場知識物体場所物体の配置的な行動行場所概念モデルに現場知識のと記述プロンプト

実験 11 目的場所概念モデルでた現場知識を大規模言語モデルに用いると，物体探索における部屋の訪問数やタスクの数をどの程度改善可能か検証験手順 1. 現場環境の学習
2. 言語指示の生 3. 物体探索タスクの実施 4. 比較手法との評価条件 • 地図は既知とする． • 物体探索前に場所概念モデルで物体の配置場所の学習を行う． • “対象物が配置された部屋にロボットが訪問した時，タスク ”とした． b

場所概念モデルにより物体の配場所を学習観測情報 • ロボットの自己置(XY) 𝑥𝑡 • 場所を表す画 𝑓𝑡
• 場所毎の物体の検出頻度 𝑜𝑡 • 場所に関する発話文 𝑤𝑡 1場所で30データを観測して学習 (計120データ) 1. living 3. bedroom 2. kitchen 4. bathroom 手順1 - 現場環境の学習物体 g Ob e 画像場所の単語 g d living , 場所の最終学習スップでた確率パラメタを用いて，物体探索を行う観測データの収集のイメージ ×5 12

• Could you please find the object I'm looking for?
• I need you to locate the object for me. • Please conduct a search for the object. 手順2 - 言語指示の生 13 1. 物体の種類数：6個 [8] 2. 物体：3パターン [8] 3. 指示文のフレーズ：3パターン物体の種類 snack box biscuit box cracker case pig plush toy stuffed pig cuddly pig dish platter dinner plate plastic airplane toy plane wind-up airplane yellow fruit cavendish tropical fruit mug drinking cup espresso cup 物体名指示文のフレズ [8] 長谷川翔一, et al., “大規模言語モデルと場所概念モデルの統合による未観測物体の語彙を含んだ言語指示理解,” JSAI, 2023. 以下の3点を組み合わせて54個の指示を作成指示文の数を増やすために，物体と指示文のフレーズの言い換えをChatGPT を用いて準備した．赤枠に探索する物体が入る.

手順3 - 物体探索タスクの実施 14 Bad (部屋の訪問数が3回) Good (部屋の訪問数が1回) ×16 ×16
対象物対象物ロボットに探索指示を与える Could you please find the pig plush toy I'm looking for? 対象物を発見するまでに，一部屋を訪問した. “対象物が配される部屋にロボットが訪問した”時を，タスクのとした．

手順4 - 比較手法との評価 15 1. 提案スム (場所概念モデル +
GPT-4 + FlexBE) 現場知識のプロンプト：場所概念モデルで獲得した知識 (場所に関する単語，物体の配置)をGPT-4に入力する．現場知識場所に関する単語の情報 place1: [living_room, sofa, desk, chair, tv] … 物体の配情報 bottle: [0.8, 0.15, 0.05] … 現場知識場所名 List of location_name: [“ i in ”, “ki chen, “bedroom”, “ba hroom”] Your initial position is outside of the four rooms. 提案スムベスライ 2. ベスライ (GPT-4 + FlexBE) 現場知識のプロンプト：場所だけGPT-4に入力する．

実験結果 16 • 探索時に一部屋の訪問で，対象物を発見した数 (Number of Successes) • 対象物を発見するまでにロボットが部屋を訪問した数 (Room
Visits) 評価項目 1. ロボットが行動しないケース例 “I need yo o oca e a m for me ”という指示のとき GPT："I'm sorry, but I can't assist with that." 手法 Number of Successes Room Visits (avg.) (提案システム) 場所概念モデル + GPT-4 + FlexBE 43 / 54 1.41 (ベースライン) GPT-4 + FlexBE 19 / 54 2.11 験で観察されたケス 2. 行動計画が現場知識に沿わないケース例. 「plastic airplaneが寝室で観測される確率が最も高い」という環境知識が与えられたとき大規模言語モデルによる行動計画に，物体の配置分布だけでなく，”pl sti ”や” irpl ne”といった一般用語も影響を与えている？ロボットは最初にリビングに移動した．ユザがロボットとイタラクを取ることが重要． 1.49倍削減ベースラインは場所概念モデルで得た知識を用いないため，性能が低下したと考察．

まとめ 17 • GPT-4 と場所概念モデル組み合わせたロボットの行動計画システムを提案 • 験場所概念モデルでた現場知識を大規模言語モデルに用いると，物体探索における部屋の訪問数やタスクの
数をどの程度改善可能か検証 • 物体探索時に，一部屋の訪問で発見した回数が向上した． • 他手法よりも，部屋の訪問数を1.49倍以上削減した． https://youtu.be/EzMYOqqJyFk

[RSJ23] Leveraging a Large Language Model and a...

[RSJ23] Leveraging a Large Language Model and a Spatial Concept Model for Action Planning of a Daily Life Support Robot

Shoichi Hasegawa

More Decks by Shoichi Hasegawa

Other Decks in Research

Featured

Transcript

生活支援ロボットの行動計画のための大規模言語モデルと場所概念モデルの活用立命館大学〇長谷川翔一，伊藤昌樹，山木良輔，坂口太一，萩原良信，

大規模言語モデルによる行動計画の課題 3 開発者にとって，現場の環境ですべての知識を記述するのは負担が大きい． e.g., ChatGPT for Robotics [1], SayCan [2],

場所の [4] A. Taniguchi, et.al. “Improved and scalable online learning

提案システムスキルット a i a ion b ec e

スキルット a i a ion b ec e ec

スキルット a i a ion b ec e ec

GPT-4による行動計画 9 GPT-4 [6]による行動計画プロプト現場知識ロボットのスキルット場所に関する単語の情報

動作エンジンによる行動実行 10 現場環境からのFeedbackをるために， GPT-4と動作エジを接続する． GPT-4 プロンプト動作エンジン

実験 11 目的場所概念モデルでた現場知識を大規模言語モデルに用いると，物体探索における部屋の訪問数やタスクの数をどの程度改善可能か検証験手順 1. 現場環境の学習

場所概念モデルにより物体の配場所を学習観測情報 • ロボットの自己置(XY) 𝑥𝑡 • 場所を表す画 𝑓𝑡

• Could you please find the object I'm looking for?

手順3 - 物体探索タスクの実施 14 Bad (部屋の訪問数が3回) Good (部屋の訪問数が1回) ×16 ×16

手順4 - 比較手法との評価 15 1. 提案スム (場所概念モデル +

実験結果 16 • 探索時に一部屋の訪問で，対象物を発見した数 (Number of Successes) • 対象物を発見するまでにロボットが部屋を訪問した数 (Room

まとめ 17 • GPT-4 と場所概念モデル組み合わせたロボットの行動計画システムを提案 • 験場所概念モデルでた現場知識を大規模言語モデルに用いると，物体探索における部屋の訪問数やタスクの