Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 是方諒介 TidyBot: Personalized Robot Assistance with Large Language Models Jimmy Wu1, Rika Antonova2, Adam Kan3, Marion Lepert2, Andy Zeng4, Shuran Song5, Jeannette Bohg2, Szymon Rusinkiewicz1, Thomas Funkhouser1,4 (1Princeton University, 2Stanford University, 3The Nueva School, 4Google, 5Columbia University) IROS 2023 慶應義塾大学 杉浦孔明研究室 是方諒介 Wu, J., Antonova, R., Kan, A., Lepert, M., Zeng, A., Song, S., Bohg, J., Rusinkiewicz, S., Funkhouser, T. "TidyBot: Personalized Robot Assistance with Large Language Models." IROS 2023.

Slide 2

Slide 2 text

概要 背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない 提案 ✓ LLMの要約能力を用い,ユーザの嗜好を推定 ✓ Open-vocab.設定によるアノテーションコスト低減 結果 ✓ 収納場所の嗜好に関するデータセットを構築し,未知物体に対して精度91.2%を達成 ✓ 実環境において,実機統合が可能であることを示した 2 16x

Slide 3

Slide 3 text

背景:パーソナライズされたTidy upタスク ◼ Tidy up = 床上に散らかった物体を片付けるタスク ◼ 課題:個人の嗜好によって異なる「適切な収納場所」をどう判断するか 3 前 後 4x

Slide 4

Slide 4 text

関連研究:少数のユーザデータからパーソナライズ可能な手法は少ない 4 手法 概要 [Taniguchi+, AR21] ・片付け対象物体の場所を共起確率の分布から推定  一般的な規則を学習するため,ユーザの嗜好に特化しない NeatNet [Kapelyukh+, CoRL21] ・GNNを用いてユーザの嗜好を表す潜在ベクトルを抽出  ユーザの傾向に関する大規模なデータ収集が必要 ProgPrompt [Singh+, ICRA23] ・LLMをロボットのタスクプランニングに応用 ・ロボットアームの実機を用いた物体操作タスクにおいて検証 NeatNet [Kapelyukh+, CoRL21] ProgPrompt [Singh+, ICRA23] [Taniguchi+, AR21]

Slide 5

Slide 5 text

提案手法:TidyBot ◼ LLMの要約能力を活用し,少数のユーザデータから収納場所を推定可能に ◼ システム全体の手順 1. Open-vocabularyの物体検出器 ViLD [Gu+, ICLR22] で発見した最近傍の物体に接近 2. 一人称視点画像から CLIP [Radford+, ICML21] を用いてカテゴリ分類 3. LLM (GPT-3 [Brown+, NeurIPS20]) により収納場所および配置動作を推定 動作実行 5

Slide 6

Slide 6 text

収納場所の選択:少数の例から,カテゴリ毎の収納規則を要約 ◼ LLMを2段階で用い,未知物体に対してユーザに沿った収納場所を提案 ◼ 仮説:物体カテゴリ毎に収納場所の傾向を把握可能(e.g., 果物類は黒い箱へ) ① ユーザの収納例 物体カテゴリ毎の収納規則 ② 物体カテゴリ毎の収納規則 + 未知物体名 収納場所 6 未知物体 LLMの出力 ①のプロンプト例 ②のプロンプト例

Slide 7

Slide 7 text

配置動作の選択:少数の例から,カテゴリ毎の配置規則を要約 ◼ 収納場所の選択と同様にLLMを活用し,未知物体に対して配置動作を提案 ◼ ”place” or “toss” の2択だが,他にも基本動作を用意すれば容易に拡張可能 ① ユーザの配置例 物体カテゴリ毎の配置規則 ② 物体カテゴリ毎の配置規則 + 未知物体名 配置動作 7 place toss ①のプロンプト例 ②のプロンプト例 2x 2x

Slide 8

Slide 8 text

LLMを用いた自動的なカテゴリ抽出:アノテーションコストを排除 ◼ 要約文から物体カテゴリを自動抽出し,CLIPの分類対象ラベルとして使用 ◼ ユーザの傾向に沿った最小限のカテゴリを都度獲得することで,事前の定義を不要に 8 プロンプト例

Slide 9

Slide 9 text

実験設定 (1/2):言語のみから成るベンチマークデータセット ◼ タスク:未知物体の収納場所をユーザの嗜好が既知の物体から予測 ◼ 評価指標:Accuracy [%] ◼ 5パターンのユーザ傾向(物体分類則)を複合的に適用 1. Category:衣類はAへ,果物類はBへ,… 2. Attribute:プラスチック製ならCへ,金属製ならDへ,… 3. Function:冬服はEへ,夏服はFへ,… 4. Subcategory: シャツはGへ,他の服はHへ,… 5. Multiple:本も玩具も両方Iへ,… 9 シナリオ数 96 部屋の種類 4 物体の種類 1076 収納場所の種類 87 各規則を適用したシナリオの割合

Slide 10

Slide 10 text

実験設定 (2/2):モバイルマニピュレータを用いた実機実験 ◼ 各シナリオにおいて,4-10例のユーザ嗜好から10個の未知物体を片付ける ◼ 評価指標:タスク成功率 [%] 10 70種類の未知物体 11種類の収納場所 8つのシナリオ

Slide 11

Slide 11 text

定量的結果:ベースライン手法を精度で上回る ◼ ベンチマークデータセット ◼ 実機実験:タスク成功率 = 85.0% ◼ 考察 ✓ 「要約」という中間的な出力を挟むことで性能が向上 ✓ 実環境において,物体の位置・カテゴリの推定および把持・配置動作を統合可能 11 全体

Slide 12

Slide 12 text

Ablation Study:LLMの用法に関する有効性を検証 ◼ 要約の有無 ◼ 考察 ✓ 適切な要約を生成することが精度向上に寄与 ✓ 要約生成フェーズを挟む場合はtext-davinci-003が最良 12 ◼ モデルの変更

Slide 13

Slide 13 text

定性的結果:収納・配置規則通りにTidy upタスクを正確に実行 ◼ 規則:カテゴリ (収納場所, 配置動作) ◼ clothing (sofa, place) ◼ snack (plastic storage box, toss) ◼ can (recycling bin, toss) ◼ wooden block (drawer, place) ◼ fruit (black storage box, toss) 13 Kinova Gen3

Slide 14

Slide 14 text

まとめ 背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない 提案 ✓ LLMの要約能力を用い,ユーザの嗜好を推定 ✓ Open-vocab.設定によるアノテーションコスト低減 結果 ✓ 収納場所の嗜好に関するデータセットを構築し,未知物体に対して精度91.2%を達成 ✓ 実環境において,実機統合が可能であることを示した 14 16x

Slide 15

Slide 15 text

Appendix:システム全体の疑似コード 15 Tidy upタスク実行例 4x

Slide 16

Slide 16 text

Appendix:収納場所に関するプロンプト例 16 要約生成 収納場所の選択

Slide 17

Slide 17 text

Appendix:配置動作に関するプロンプト例 17 要約生成 配置動作の選択

Slide 18

Slide 18 text

Appendix:実機実験におけるプロンプト例 18 カテゴリ抽出 収納場所の選択 配置動作の選択

Slide 19

Slide 19 text

Appendix:Example only条件のプロンプト例 ◼ 要約生成の段階を踏まず,一度で収納場所の推定を行う ◼ ユーザデータは与える 19

Slide 20

Slide 20 text

Appendix:Commonsense条件のプロンプト例 ◼ LLMの常識(= 一般的に物体Xは配置場所Yにある)把握能力を活用 ◼ ユーザデータを与えない 20

Slide 21

Slide 21 text

Appendix:Visual Language Modelに関するAblation Study ◼ モデルおよび分類対象ラベルを変更 ◼ 考察 ✓ 全条件においてCLIPが最良 ✓ ラベル数が少ないため,要約からカテゴリを抽出する手法が最も精度が高くなる傾向 21