Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] TidyBot: Personalized Robot Assistance with Large Language Models

[Journal club] TidyBot: Personalized Robot Assistance with Large Language Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室
    是方諒介
    TidyBot:
    Personalized Robot Assistance
    with Large Language Models
    Jimmy Wu1, Rika Antonova2, Adam Kan3, Marion Lepert2, Andy Zeng4,
    Shuran Song5, Jeannette Bohg2, Szymon Rusinkiewicz1, Thomas Funkhouser1,4
    (1Princeton University, 2Stanford University, 3The Nueva School, 4Google,
    5Columbia University)
    IROS 2023
    慶應義塾大学 杉浦孔明研究室
    是方諒介
    Wu, J., Antonova, R., Kan, A., Lepert, M., Zeng, A., Song, S., Bohg, J., Rusinkiewicz, S., Funkhouser, T.
    "TidyBot: Personalized Robot Assistance with Large Language Models." IROS 2023.

    View full-size slide

  2. 概要
    背景
    ✓ パーソナライズされたTidy upタスクにおける収納場所の判断
    ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない
    提案
    ✓ LLMの要約能力を用い,ユーザの嗜好を推定
    ✓ Open-vocab.設定によるアノテーションコスト低減
    結果
    ✓ 収納場所の嗜好に関するデータセットを構築し,未知物体に対して精度91.2%を達成
    ✓ 実環境において,実機統合が可能であることを示した
    2
    16x

    View full-size slide

  3. 背景:パーソナライズされたTidy upタスク
    ◼ Tidy up = 床上に散らかった物体を片付けるタスク
    ◼ 課題:個人の嗜好によって異なる「適切な収納場所」をどう判断するか
    3


    4x

    View full-size slide

  4. 関連研究:少数のユーザデータからパーソナライズ可能な手法は少ない
    4
    手法 概要
    [Taniguchi+, AR21] ・片付け対象物体の場所を共起確率の分布から推定
     一般的な規則を学習するため,ユーザの嗜好に特化しない
    NeatNet
    [Kapelyukh+, CoRL21]
    ・GNNを用いてユーザの嗜好を表す潜在ベクトルを抽出
     ユーザの傾向に関する大規模なデータ収集が必要
    ProgPrompt
    [Singh+, ICRA23]
    ・LLMをロボットのタスクプランニングに応用
    ・ロボットアームの実機を用いた物体操作タスクにおいて検証
    NeatNet [Kapelyukh+, CoRL21] ProgPrompt [Singh+, ICRA23]
    [Taniguchi+, AR21]

    View full-size slide

  5. 提案手法:TidyBot
    ◼ LLMの要約能力を活用し,少数のユーザデータから収納場所を推定可能に
    ◼ システム全体の手順
    1. Open-vocabularyの物体検出器 ViLD [Gu+, ICLR22] で発見した最近傍の物体に接近
    2. 一人称視点画像から CLIP [Radford+, ICML21] を用いてカテゴリ分類
    3. LLM (GPT-3 [Brown+, NeurIPS20]) により収納場所および配置動作を推定 動作実行
    5

    View full-size slide

  6. 収納場所の選択:少数の例から,カテゴリ毎の収納規則を要約
    ◼ LLMを2段階で用い,未知物体に対してユーザに沿った収納場所を提案
    ◼ 仮説:物体カテゴリ毎に収納場所の傾向を把握可能(e.g., 果物類は黒い箱へ)
    ① ユーザの収納例 物体カテゴリ毎の収納規則
    ② 物体カテゴリ毎の収納規則 + 未知物体名 収納場所
    6
    未知物体
    LLMの出力
    ①のプロンプト例 ②のプロンプト例

    View full-size slide

  7. 配置動作の選択:少数の例から,カテゴリ毎の配置規則を要約
    ◼ 収納場所の選択と同様にLLMを活用し,未知物体に対して配置動作を提案
    ◼ ”place” or “toss” の2択だが,他にも基本動作を用意すれば容易に拡張可能
    ① ユーザの配置例 物体カテゴリ毎の配置規則
    ② 物体カテゴリ毎の配置規則 + 未知物体名 配置動作
    7
    place
    toss
    ①のプロンプト例 ②のプロンプト例
    2x
    2x

    View full-size slide

  8. LLMを用いた自動的なカテゴリ抽出:アノテーションコストを排除
    ◼ 要約文から物体カテゴリを自動抽出し,CLIPの分類対象ラベルとして使用
    ◼ ユーザの傾向に沿った最小限のカテゴリを都度獲得することで,事前の定義を不要に
    8
    プロンプト例

    View full-size slide

  9. 実験設定 (1/2):言語のみから成るベンチマークデータセット
    ◼ タスク:未知物体の収納場所をユーザの嗜好が既知の物体から予測
    ◼ 評価指標:Accuracy [%]
    ◼ 5パターンのユーザ傾向(物体分類則)を複合的に適用
    1. Category:衣類はAへ,果物類はBへ,…
    2. Attribute:プラスチック製ならCへ,金属製ならDへ,…
    3. Function:冬服はEへ,夏服はFへ,…
    4. Subcategory: シャツはGへ,他の服はHへ,…
    5. Multiple:本も玩具も両方Iへ,…
    9
    シナリオ数 96
    部屋の種類 4
    物体の種類 1076
    収納場所の種類 87
    各規則を適用したシナリオの割合

    View full-size slide

  10. 実験設定 (2/2):モバイルマニピュレータを用いた実機実験
    ◼ 各シナリオにおいて,4-10例のユーザ嗜好から10個の未知物体を片付ける
    ◼ 評価指標:タスク成功率 [%]
    10
    70種類の未知物体 11種類の収納場所
    8つのシナリオ

    View full-size slide

  11. 定量的結果:ベースライン手法を精度で上回る
    ◼ ベンチマークデータセット
    ◼ 実機実験:タスク成功率 = 85.0%
    ◼ 考察
    ✓ 「要約」という中間的な出力を挟むことで性能が向上
    ✓ 実環境において,物体の位置・カテゴリの推定および把持・配置動作を統合可能
    11
    全体

    View full-size slide

  12. Ablation Study:LLMの用法に関する有効性を検証
    ◼ 要約の有無
    ◼ 考察
    ✓ 適切な要約を生成することが精度向上に寄与
    ✓ 要約生成フェーズを挟む場合はtext-davinci-003が最良
    12
    ◼ モデルの変更

    View full-size slide

  13. 定性的結果:収納・配置規則通りにTidy upタスクを正確に実行
    ◼ 規則:カテゴリ (収納場所, 配置動作)
    ◼ clothing (sofa, place)
    ◼ snack (plastic storage box, toss)
    ◼ can (recycling bin, toss)
    ◼ wooden block (drawer, place)
    ◼ fruit (black storage box, toss)
    13
    Kinova Gen3

    View full-size slide

  14. まとめ
    背景
    ✓ パーソナライズされたTidy upタスクにおける収納場所の判断
    ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない
    提案
    ✓ LLMの要約能力を用い,ユーザの嗜好を推定
    ✓ Open-vocab.設定によるアノテーションコスト低減
    結果
    ✓ 収納場所の嗜好に関するデータセットを構築し,未知物体に対して精度91.2%を達成
    ✓ 実環境において,実機統合が可能であることを示した
    14
    16x

    View full-size slide

  15. Appendix:システム全体の疑似コード
    15
    Tidy upタスク実行例
    4x

    View full-size slide

  16. Appendix:収納場所に関するプロンプト例
    16
    要約生成 収納場所の選択

    View full-size slide

  17. Appendix:配置動作に関するプロンプト例
    17
    要約生成
    配置動作の選択

    View full-size slide

  18. Appendix:実機実験におけるプロンプト例
    18
    カテゴリ抽出 収納場所の選択 配置動作の選択

    View full-size slide

  19. Appendix:Example only条件のプロンプト例
    ◼ 要約生成の段階を踏まず,一度で収納場所の推定を行う
    ◼ ユーザデータは与える
    19

    View full-size slide

  20. Appendix:Commonsense条件のプロンプト例
    ◼ LLMの常識(= 一般的に物体Xは配置場所Yにある)把握能力を活用
    ◼ ユーザデータを与えない
    20

    View full-size slide

  21. Appendix:Visual Language Modelに関するAblation Study
    ◼ モデルおよび分類対象ラベルを変更
    ◼ 考察
    ✓ 全条件においてCLIPが最良
    ✓ ラベル数が少ないため,要約からカテゴリを抽出する手法が最も精度が高くなる傾向
    21

    View full-size slide