[Journal club] TidyBot: Personalized Robot Assistance with Large Language Models

慶應義塾大学杉浦孔明研究室是方諒介 TidyBot: Personalized Robot Assistance with Large Language
Models Jimmy Wu1, Rika Antonova2, Adam Kan3, Marion Lepert2, Andy Zeng4, Shuran Song5, Jeannette Bohg2, Szymon Rusinkiewicz1, Thomas Funkhouser1,4 (1Princeton University, 2Stanford University, 3The Nueva School, 4Google, 5Columbia University) IROS 2023 慶應義塾大学杉浦孔明研究室是方諒介 Wu, J., Antonova, R., Kan, A., Lepert, M., Zeng, A., Song, S., Bohg, J., Rusinkiewicz, S., Funkhouser, T. "TidyBot: Personalized Robot Assistance with Large Language Models." IROS 2023.

概要背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない提案 ✓ LLMの要約能力を用い，ユーザの嗜好を推定
✓ Open-vocab.設定によるアノテーションコスト低減結果 ✓ 収納場所の嗜好に関するデータセットを構築し，未知物体に対して精度91.2%を達成 ✓ 実環境において，実機統合が可能であることを示した 2 16x

背景：パーソナライズされたTidy upタスク ◼ Tidy up = 床上に散らかった物体を片付けるタスク ◼ 課題：個人の嗜好によって異なる「適切な収納場所」をどう判断するか 3
前後 4x

関連研究：少数のユーザデータからパーソナライズ可能な手法は少ない 4 手法概要 [Taniguchi+, AR21] ・片付け対象物体の場所を共起確率の分布から推定  一般的な規則を学習するため，ユーザの嗜好に特化しない NeatNet
[Kapelyukh+, CoRL21] ・GNNを用いてユーザの嗜好を表す潜在ベクトルを抽出  ユーザの傾向に関する大規模なデータ収集が必要 ProgPrompt [Singh+, ICRA23] ・LLMをロボットのタスクプランニングに応用・ロボットアームの実機を用いた物体操作タスクにおいて検証 NeatNet [Kapelyukh+, CoRL21] ProgPrompt [Singh+, ICRA23] [Taniguchi+, AR21]

提案手法：TidyBot ◼ LLMの要約能力を活用し，少数のユーザデータから収納場所を推定可能に ◼ システム全体の手順 1. Open-vocabularyの物体検出器 ViLD [Gu+, ICLR22]
で発見した最近傍の物体に接近 2. 一人称視点画像から CLIP [Radford+, ICML21] を用いてカテゴリ分類 3. LLM (GPT-3 [Brown+, NeurIPS20]) により収納場所および配置動作を推定動作実行 5

収納場所の選択：少数の例から，カテゴリ毎の収納規則を要約 ◼ LLMを2段階で用い，未知物体に対してユーザに沿った収納場所を提案 ◼ 仮説：物体カテゴリ毎に収納場所の傾向を把握可能（e.g., 果物類は黒い箱へ） ① ユーザの収納例物体カテゴリ毎の収納規則 ②
物体カテゴリ毎の収納規則 + 未知物体名収納場所 6 未知物体 LLMの出力 ①のプロンプト例 ②のプロンプト例

配置動作の選択：少数の例から，カテゴリ毎の配置規則を要約 ◼ 収納場所の選択と同様にLLMを活用し，未知物体に対して配置動作を提案 ◼ ”place” or “toss” の2択だが，他にも基本動作を用意すれば容易に拡張可能 ① ユーザの配置例
物体カテゴリ毎の配置規則 ② 物体カテゴリ毎の配置規則 + 未知物体名配置動作 7 place toss ①のプロンプト例 ②のプロンプト例 2x 2x

LLMを用いた自動的なカテゴリ抽出：アノテーションコストを排除 ◼ 要約文から物体カテゴリを自動抽出し，CLIPの分類対象ラベルとして使用 ◼ ユーザの傾向に沿った最小限のカテゴリを都度獲得することで，事前の定義を不要に 8 プロンプト例

実験設定 (1/2)：言語のみから成るベンチマークデータセット ◼ タスク：未知物体の収納場所をユーザの嗜好が既知の物体から予測 ◼ 評価指標：Accuracy [%] ◼ 5パターンのユーザ傾向（物体分類則）を複合的に適用 1.
Category：衣類はAへ，果物類はBへ，… 2. Attribute：プラスチック製ならCへ，金属製ならDへ，… 3. Function：冬服はEへ，夏服はFへ，… 4. Subcategory: シャツはGへ，他の服はHへ，… 5. Multiple：本も玩具も両方Iへ，… 9 シナリオ数 96 部屋の種類 4 物体の種類 1076 収納場所の種類 87 各規則を適用したシナリオの割合

実験設定 (2/2)：モバイルマニピュレータを用いた実機実験 ◼ 各シナリオにおいて，4-10例のユーザ嗜好から10個の未知物体を片付ける ◼ 評価指標：タスク成功率 [%] 10 70種類の未知物体 11種類の収納場所
8つのシナリオ

定量的結果：ベースライン手法を精度で上回る ◼ ベンチマークデータセット ◼ 実機実験：タスク成功率 = 85.0% ◼ 考察 ✓
「要約」という中間的な出力を挟むことで性能が向上 ✓ 実環境において，物体の位置・カテゴリの推定および把持・配置動作を統合可能 11 全体

Ablation Study：LLMの用法に関する有効性を検証 ◼ 要約の有無 ◼ 考察 ✓ 適切な要約を生成することが精度向上に寄与 ✓ 要約生成フェーズを挟む場合はtext-davinci-003が最良
12 ◼ モデルの変更

定性的結果：収納・配置規則通りにTidy upタスクを正確に実行 ◼ 規則：カテゴリ (収納場所, 配置動作) ◼ clothing (sofa, place)
◼ snack (plastic storage box, toss) ◼ can (recycling bin, toss) ◼ wooden block (drawer, place) ◼ fruit (black storage box, toss) 13 Kinova Gen3

まとめ背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない提案 ✓ LLMの要約能力を用い，ユーザの嗜好を推定
✓ Open-vocab.設定によるアノテーションコスト低減結果 ✓ 収納場所の嗜好に関するデータセットを構築し，未知物体に対して精度91.2%を達成 ✓ 実環境において，実機統合が可能であることを示した 14 16x

Appendix：システム全体の疑似コード 15 Tidy upタスク実行例 4x

Appendix：収納場所に関するプロンプト例 16 要約生成収納場所の選択

Appendix：配置動作に関するプロンプト例 17 要約生成配置動作の選択

Appendix：実機実験におけるプロンプト例 18 カテゴリ抽出収納場所の選択配置動作の選択

Appendix：Example only条件のプロンプト例 ◼ 要約生成の段階を踏まず，一度で収納場所の推定を行う ◼ ユーザデータは与える 19

Appendix：Commonsense条件のプロンプト例 ◼ LLMの常識（= 一般的に物体Xは配置場所Yにある）把握能力を活用 ◼ ユーザデータを与えない 20

Appendix：Visual Language Modelに関するAblation Study ◼ モデルおよび分類対象ラベルを変更 ◼ 考察 ✓ 全条件においてCLIPが最良
✓ ラベル数が少ないため，要約からカテゴリを抽出する手法が最も精度が高くなる傾向 21

[Journal club] TidyBot: Personalized Robot Assi...

[Journal club] TidyBot: Personalized Robot Assistance with Large Language Models

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 TidyBot: Personalized Robot Assistance with Large Language

概要背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない提案 ✓ LLMの要約能力を用い，ユーザの嗜好を推定

背景：パーソナライズされたTidy upタスク ◼ Tidy up = 床上に散らかった物体を片付けるタスク ◼ 課題：個人の嗜好によって異なる「適切な収納場所」をどう判断するか 3

関連研究：少数のユーザデータからパーソナライズ可能な手法は少ない 4 手法概要 [Taniguchi+, AR21] ・片付け対象物体の場所を共起確率の分布から推定  一般的な規則を学習するため，ユーザの嗜好に特化しない NeatNet

提案手法：TidyBot ◼ LLMの要約能力を活用し，少数のユーザデータから収納場所を推定可能に ◼ システム全体の手順 1. Open-vocabularyの物体検出器 ViLD [Gu+, ICLR22]

実験設定 (1/2)：言語のみから成るベンチマークデータセット ◼ タスク：未知物体の収納場所をユーザの嗜好が既知の物体から予測 ◼ 評価指標：Accuracy [%] ◼ 5パターンのユーザ傾向（物体分類則）を複合的に適用 1.

実験設定 (2/2)：モバイルマニピュレータを用いた実機実験 ◼ 各シナリオにおいて，4-10例のユーザ嗜好から10個の未知物体を片付ける ◼ 評価指標：タスク成功率 [%] 10 70種類の未知物体 11種類の収納場所

定量的結果：ベースライン手法を精度で上回る ◼ ベンチマークデータセット ◼ 実機実験：タスク成功率 = 85.0% ◼ 考察 ✓

Ablation Study：LLMの用法に関する有効性を検証 ◼ 要約の有無 ◼ 考察 ✓ 適切な要約を生成することが精度向上に寄与 ✓ 要約生成フェーズを挟む場合はtext-davinci-003が最良

定性的結果：収納・配置規則通りにTidy upタスクを正確に実行 ◼ 規則：カテゴリ (収納場所, 配置動作) ◼ clothing (sofa, place)

まとめ背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない提案 ✓ LLMの要約能力を用い，ユーザの嗜好を推定