Slide 1

Slide 1 text

基盤モデルの実ロボット応用 チュートリアル1 河原塚 健人1, 松嶋 達也2 1 情報システム工学研究室(JSK), 東京大学 2 松尾研究室, 東京大学 1 第41回 日本ロボット学会学術講演会 OS4 – 基盤モデルの実ロボット応用

Slide 2

Slide 2 text

基盤モデルの実ロボット応用 • 本オーガナイズドセッションの狙い • 現在の流行りをキャッチアップしよう! • 海外勢(主にアメリカ)に負けないよう頑張ろう! • 後追いを頑張る必要はない. 自身の特異な技術と現在の基盤モ デルをうまく組み合わせれば面白いことができるかも!? • 一緒に面白いことやりましょう! • 本チュートリアルは2部制です • 前半は既存の基盤モデルの応用について • 後半はロボットのための基盤モデル作りについて 2

Slide 3

Slide 3 text

簡単に自己紹介 • 知らない人もいるかと思いますので… • 名前 – 河原塚 健人 (かわはらづか けんと) • 研究室 – 稲葉研 (情報システム工学研究室, JSK) • 経歴 – 2022.3 博士取得 / 特任助教 / JSPS DC1 / JST ACT-X • Twitter – @KKawaharazuka • Website – https://haraduka.github.io • 研究内容↓ 3 筋骨格身体設計 生物模倣制御/学習 予測モデル学習 基盤モデル応用

Slide 4

Slide 4 text

基盤モデルとは? 4 [1] R. Bommasani+, On the Opportunities and Risks of Foundation Models, arXiv preprint arXiv:2308.03357, 2023 • A foundation model is any model that is trained on broad data (generally using self-supervision at scale) that can be adapted (e.g., fine-tuned) to a wide range of downstream tasks [1]

Slide 5

Slide 5 text

基盤モデルが可能なタスク 5 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence BERT 視覚 • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything 聴覚 点群・深度 LLM

Slide 6

Slide 6 text

基盤モデルが可能なタスク 6 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM

Slide 7

Slide 7 text

基盤モデルが可能なタスク 7 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM ALM LLM

Slide 8

Slide 8 text

基盤モデルが可能なタスク 8 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 点群/視覚/言語潜在空間 ULIP, CLIP-goes-3D • 視覚/言語点群・深度 OmniObject3D, Point-E • 点群/視覚/言語言語/認識 3D-LLM, OpenScene • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM ALM

Slide 9

Slide 9 text

基盤モデルが可能なタスク 9 言語 • 言語言語 ChatGPT, LLaMA • 言語潜在空間 Sentence BERT 視覚 • 視覚/言語潜在空間 CLIP, GLIP • 視覚/言語言語 BLIP2, OFA, Flamingo • 言語視覚 Stable Diffusion, DALL-E • 視覚/言語  認識 Detic, OWL-ViT, LSeg 聴覚 点群・深度 その他のモダリティ • 音声/視覚/言語潜在空間 CLAP, AudioCLIP • 音声言語 Whisper • 視覚/言語/音声音声 MusicLM, AudioLDM, VALL-E • 点群/視覚/言語潜在空間 ULIP, CLIP-goes-3D • 視覚/言語点群・深度 OmniObject3D, Point-E • 点群/視覚/言語言語/認識 3D-LLM, OpenScene • ヒートマップ • IMU • 動作/骨格情報 • ジェスチャー など ImageBind, MetaTransformer • 視覚潜在空間 R3M, VC-1 • 視覚認識 Segment Anything VLM LLM ALM

Slide 10

Slide 10 text

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する 10

Slide 11

Slide 11 text

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識 11

Slide 12

Slide 12 text

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識 • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 12

Slide 13

Slide 13 text

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識 • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 13

Slide 14

Slide 14 text

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識 • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御 14

Slide 15

Slide 15 text

基盤モデルの活用方法 • ロボットは環境を認識し動作を計画, 身体を制御する • Low-level Perception – 環境や物体等, 現在状態の低レイヤ認識 • High-level Perception – マップ生成や報酬生成等の高レイヤ認識 • High-level Planning – 抽象的なレイヤでの動作計画 • Low-level Planning – 直接手先位置や関節を扱う低レイヤ制御 • Data Augmentation – 認識と制御を接続する学習の際に活用 15

Slide 16

Slide 16 text

活用方法(i) – Low-level Perception 16 CLIPort [M. Shridhar+, CoRL2021] @特徴量抽出 • CLIPの画像・言語エンコーダにより意味的情報を抽出, TransporterNetsにより空 間的情報を抽出して, pick&placeの位置を出力する REFLECT [Z. Liu+, arXiv, 2023] @物体認識・音認識 • MDETRで物体検出, CLIPで物体状態認識, 深度画像からの3D シーングラフ記述, audioCLIPで音認識し,ロボットになぜ動作が失敗したかをLLMでまとめさせ, そ れを修正するような動作計画を生成していく

Slide 17

Slide 17 text

活用方法(ii) – High-level Perception 17 VoxPoser [M. Shridhar+, CoRL2023] @目的関数・拘束設計 • LLMとVLMを使いAffordance MapとConstraint Mapをプログラムとして生成, それ らをもとにモデル予測制御で動作計画 CLIP-Fields [M. Shafiullah+, RSS2023] @マップ生成 • Detic, CLIP, Sentence-BERTを使用して, 空間の各点に対して物体ラベルや物体画 像の特徴量を埋め込み, これを用いてナビゲーション 似た事例: 強化学習の報酬生成

Slide 18

Slide 18 text

活用方法(iii) – High-level Planning 18 Tidy-Bot [J. Wu+, IROS2023] @動作計画 • ViLDによる物体認識やCLIPによるクラス分類をしたうえで, その物体をどこにし まうか, どのようにしまうかを, 人間の好みを考慮しつつLLMで推論 Code as Policies [J. Liang+, ICRA2023] @コード生成 • 認識APIや制御APIを事前に用意したうえで, LLMを使いロボットの制御のための pythonコードを自動生成.コメントと対応するコードからなる事例も入力.

Slide 19

Slide 19 text

活用方法(iv) – Low-level Planning 19 SayTap [Y. Tang+, CoRL2023] @歩容生成 • LLMからIn-context LearningでFootstep Planと速度vを出力. 得られたFootstep Plan と速度vから各関節指令を計算する部分はシミュレーションで強化学習 General Pattern Machines [S. Mirchandani+, RSS2023] @制御入力生成 • LLMをシーケンス生成器としてCartpoleやMainpulationを行う. シーケンスの transformation/completion/improvementが可能で, 動作の補完や強化学習も可能に

Slide 20

Slide 20 text

活用方法(v) – Data Augmentation 20 GenAug [Z. Chen+, RSS2023] @画像データ拡張 • 画像を拡散モデルで大量に拡張して模倣学習. 背景の変化, distractorの追加, 現 在物体のテクスチャ変化, 別物体の配置によりロバスト性を向上 DIAL [T. Xiao+, RSS2023] @言語データ拡張 • LLMやクラウドソーシングで大量の言語指示例を得る. 大量の軌道データについ てfine-tuningしたCLIPで適切な言語指示を複数得て模倣学習に利用

Slide 21

Slide 21 text

基盤モデルの活用方法 21 1. CLIPやDeticで認識してLLMで動作計 画してロボットを動かす 2. AffordanceやRewardを構築して強化 学習やMPCでロボットを動かす 3. マップやシーングラフを構築して 動作計画してロボットを動かす 4. CLIPやR3Mの特徴量と制御入力の関 係をデータ拡張しつつ学習し動かす

Slide 22

Slide 22 text

我々の応用事例 – 生活支援 22 [1] Y. Obinata+, Semantic Scene Difference Detection in Daily Life Patroling by Mobile Robots using Pre-Trained Large-Scale Vision- Language Model, IROS, 2023 [2] Y. Obinata+, Foundation Model based Open Vocabulary Task Planning and Executive System for General Purpose Service Robots, arXiv preprint arXiv:2308.03357, 2023 • LLMによるサブゴール生成とステートマシンの自動構築 • 多数の基盤モデルを用いた汎用タスク実行

Slide 23

Slide 23 text

我々の応用事例 – 調理行動 23 [1] N. Kanazawa+, Recognition of Heat-Induced Food State Changes by Time-Series Use of Vision-Language Model for Cooking Robot, IAS, 2023 [2] 金沢 直晃+, 料理レシピ記述解析と視覚-言語モデルの時系列利用による食材状態変化認識に基づくロボットの調理作業実行 (in press), 日本ロボット学会誌, 2023 • レシピ記述を解釈して調理実行するロボットシステム開発 • 言語記述に基づいた食材状態変化の認識手法開発

Slide 24

Slide 24 text

我々の応用事例 – 認識行動 24 [1] K. Kawaharazuka+, VQA-based Robotic State Recognition Optimized with Genetic Algorithm, ICRA, 2023 [2] K. Kawaharazuka+, Robotic Applications of Pre-Trained Vision-Language Models to Various Recognition Behaviors, preprint arXiv:2303.05674 • VLMのVQAやITRタスクによる環境状態認識と行動実現 • テキスト集合の重みを最適化で調整して性能を向上

Slide 25

Slide 25 text

我々の応用事例 – 日記生成 25 [1] A. Ichikura+, A Method for Selecting Scenes and Emotion-Based Descriptions for a Robot's Diary, ROMAN, 2023 [2] A. Ichikura+, Automatic Diary Generation System Including Information on Joint Experiences between Humans and Robots, IAS, 2023 • 人とロボットの関係性を深める思い出共有システムの開発 • 適切な場面を抜き出し状況や感情を記述, 日記を生成

Slide 26

Slide 26 text

宣伝 • Advanced Robotics特集号 • Real-World Robot Applications of Foundation Models • 〆切 2024年1月31日 • MetaやDeepMindの研究者を含む豪華なエディター陣! 26