Foundation Model and Robotics | 基盤モデルとロボティクス

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　基盤モデルとロボティクス Foundation Model
and Robotics *スプリングセミナー 2023　深層強化学習　第6回前半の講義資料を改変講義日: 2023年3月3日担当講師：小林　聖人　博士(工学) Twitter: @robotmkb , @MeRTcooking 1 スプリングセミナー2023　深層強化学習 https://twitter.com/Matsuo_Lab/status/1617723687331069952

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　はじめに 2 本講義資料は、
深層強化学習スプリングセミナー2023の第6回目の前半60分の講義資料がベースになっています。所々、事前知識が必要な箇所は、次回開催する深層強化学習のセミナーを受講してみてください。講師の口頭講義前提の資料のため、わかりにくい箇所もありますが、ご了承ください。 https://twitter.com/Matsuo_Lab/status/1617723687331069952

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 0. 自己紹介　小林　聖人 (Twitter:
@robotmkb , @MeRTcooking) 　 □ 2022/10 ~ 2023/3：神戸大学　大学院海事科学研究科　学術研究員 - 東京大学松尾豊研究室との業務がメイン(基礎研究やロボットデモ) - TRAIL (Tokyo Robotics and AI Lab): 学部1年生中心! @trail_ut - OUXT Polaris (国際自律航行船ロボコン学生主体チーム ) @OUXT_Polaris □ 2021/11~2022/3：オムロンサイニックエックス株式会社　リサーチインターン - ロボティクス×AIの研究　メンター様 2名, オックスフォード大学博士課程1名 □ 2021/11~2022/9：国立研究開発法人科学技術振興機構 (JST) 次世代研究者挑戦的研究プログラム □ 2019/10 ~ 2022/9：神戸大学　博士(工学)　 - 自律・遠隔ロボット関係の研究（主に移動やマニピュレーション） - 私費での社会人博士課程 □ 2019/4~2021/9：セイコーエプソン株式会社　技術開発本部　知能ロボットや製造装置に関する業務 □ 2019/3：神戸大学　海事科学研究科　修士課程修了　 - 制御、モーションコントロール、ロボティクス 3 フォローお待ちしてます ! Motion-Copying System 自律移動手法 : DWV 練習船

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　今回の講義の位置付け応用を見据えた近年の発展的話題基盤モデルとロボティクス
レーシングシミュレーションゲームグランツーリスモ 4 前半後半 https://youtu.be/zdMz-lDh-QE

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　目次: 応用を見据えた近年の発展的話題概要：基盤モデルの概略やロボティクスへの応用事例を学ぶ
1. 基盤モデル、Transformer 2. 基盤モデルとロボティクス目標： ▷基盤モデルやTransformerの概要を理解する ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい　て理解する　（強化学習との関わりについても適宜述べていきます） 5

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　参考資料【基盤モデルやTransformer関係】 □TRAIL
ブログ「基盤モデルとは」 - 基盤モデルの概要について説明。本記事は東京大学松尾豊研究室のサブグループである TRAILのテックブログでご紹介。 □基盤モデル×ロボティクス　アドベントカレンダー - 東京大学松尾研究室が主催する「基盤モデル ×Robotics」に関するAdvent Calendar 2022 □【メタサーベイ】基盤モデル / Foundation Models - cvpaper.challenge のメタサーベイ発表スライド □コンピュータビジョン最前線 Summer 2022 - 「イマドキノ基盤モデル」では、 Bommasaniらによって提案された基盤モデル（ foundation model）の概念ついて解説。 □Vision Transformer入門 □機械学習エンジニアのための Transformers 【ロボティクス】 □ROS2とPythonで作って学ぶAIロボット入門 □実践ロボット制御 6 ◎深層学習教科書ディープラーニング G検定(ジェネラリスト)公式テキスト第2版

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　目次: 応用を見据えた近年の発展的話題 1.
基盤モデル　40分 1.1 基盤モデルとは 1.2 基盤モデルの紹介や活用事例 1.3 Transformerとは 1.4 基盤モデルの今後? 2. 基盤モデルとロボティクス 20分 2.1 Robotics領域への活用事例 2.2 Robotics版基盤モデルをつくるには？ 2.3 松尾研での活用事例(TRAILの内容): 7

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　演習資料へ講義中に使用する演習資料を Google
Colabで事前に立ち上げておいてください 8 演習資料はこちら https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb スターお待ちしています m(- -)m

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　第１部基盤モデル 1.1
基盤モデルとは 9

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　みなさん、「基盤モデル」を知っていますか？ 10
本セミナーでもちらほらワードがでてきていますね

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷はじめに　基盤モデルは身近な存在に
...　以下は基盤モデルの一例 11 ・Gato 　　　・Transformer ・CLIP 　・Detic 　・BERT 　

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷はじめに　基盤モデルは身近な存在に
... 12 ☆話題のChatGPT（基盤モデルのGPTや強化学習が活用されている） https://twitter.com/shanegJP 参考資料 ▪松尾研究室資料　AIの進化と日本の戦略 ▪Twitter　シェインさん ChatGPT強化学習技術リード兼日本担当 GPT：Generative Pretrained Transformer

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは •
2021/8/16初出のホワイトペーパーで登場した言葉 • Stanfordの研究機関の名称にもなっている（青枠）（Abstractより抜粋） “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character” ▷基盤モデルの提唱論文 13 https://arxiv.org/abs/2108.07258 ざっくりと概要は・・・？

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/
基盤モデルとは... 大量で多様なデータを用いて訓練され, 様々なタスクに適応（ファインチューニングなど）できる大規模モデル第一部が終わる頃にこの図を振り返ってみましょう！　少し理解が深まったはずです！なんだかわかったような？わからんような？ ▷はじめに 14 ①Multi Modal ②Emergence at Scale ③Few-Shot/Zero-Shot ability

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは基盤モデルとは...
大量で多様なデータを用いて訓練され , 様々なタスクに適応（ファインチューニングなど）できる大規模モデル ▷はじめに 15 ☆これまでのdeep learning (☆Pre-training & Fine-Tuning誕生以前) 学習・大量の教師データ・大量の計算資源労力＆計算資源がないと無理！事前学習 pre-training fine-tuning ☆Pre-training & Fine-Tuning誕生以降・大量の教師データ・大量の計算資源 →各組織に任せる！・少量の教師データ・少量の計算資源 →個人で学習が可能に！個別に適応 label: ねこ

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷はじめに
16 タスクごとに必要なデータの量タスクごとのモデリング分布外データへの頑丈性従来モデル大個別弱基盤モデル（学習済）小適応強 https://blog.recruit.co.jp/data/articles/foundation_models/#fnref:1 従来モデル:「単一タスク, 単一モデル」基盤モデル:「多様なタスク, 汎化モデル」と活用することが可能 ☆基盤モデルを使うとタスク毎にモデルを設計する必要がなくなる。

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは •
2021/8/16初出のホワイトペーパーで登場した言葉 • Stanfordの研究機関の名称にもなっている（青枠）（Abstractより抜粋） “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character” ▷基盤モデルの提唱論文 17 https://arxiv.org/abs/2108.07258 何故そもそも基盤モデルが注目されていったのか・・・

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷基盤モデルが台頭した訳
18 • ハードウェア性能・能力とソフトウェアの最適化 • Transformerモデルの発明 (1.3で解説) • 大規模データの利活用（こちらについて次のスライドから解説）・Transformer ・GPUの処理性能　2016年〜2020年　10倍に向上・表現力・拡張性・マルチモダリティ・記憶容量・多要素合成性

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷大規模データ
: Scaling Law 19 引用　https://arxiv.org/abs/2001.08361 3つの変数(計算資源 C, データセットサイズ D, パラメータ数 N)に関するべき乗に従って性能が上がる . 　 3変数を大きくすればするほど基盤モデルの性能が向上する。 *GPT-3は、web上のデータ（4兆単語）で事前学習。1750億パラメータ。学習に数億〜数十億円のコスト。 https://arxiv.org/abs/2001.08361

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷大規模データ
: Emergent Ability ある閾値（モデルサイズ）から突然性能が向上 →モデルのサイズが巨大なときのみ突如解ける   言語モデルモデルサイズデータやモデルを巨大にする流れに・・・ https://arxiv.org/abs/2001.08361 20

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.1 基盤モデルとは ▷Transformer
時系列　 Transformer models: an introduction and catalog 21 Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル 2017年〜2023年にかけて様々なTransformerベースのモデルが誕生 ! https://arxiv.org/abs/2302.07730

基盤モデルの紹介や活用事例 22

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷はじめに：1部の演習ではHuggingFaceを活用します
23 https://huggingface.co/ HuggingFace 学習済みの機械学習モデルやデータセットなどを公開 https://huggingface.co/openai/clip-vit-base-patch32 CLIP:Vision and Language Model

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷Language：GPT
(Generative Pretrained Transformer) 24 ・Transformerのデコーダをベース・質問や推論が可能に・GPT→GPT2→GPT3とほとんどモデルを変更せずにパラメータやデータを増加・パラメータ数 GPT：1億17百万個→GPT-2：15億個→GPT-3：1,750億個・InstrusctGPT : GPT3は人間にとって好ましくない文章生成もあり、人間の評価を反映　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（後ほど紹介） GPT (Generative Pretrained Transformer)

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　演習資料へ GPT2を体験してみよう！ 25
https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷Language：GPT２を演習で体感　
26 1. GPT2を体感 GPT2を活用して文章生成をしてみましょう！目的：GPT2を活用して文章の続きを生成してくれる様子を体感する。

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷Vision
and Language：CLIPを演習で体感 27 ・CLIP 　インターネットから集めた画像とテキストの 40億ペアからなるデータセットからモデルを学習することで、多くの下流タスクに対するゼロショット性能を高めることが可能になった。 https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-02-clip/

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　演習資料へ CLIPを体験してみよう！ 28

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷Vision
and Language：CLIPを演習で体感 29 2. CLIPを体感 CLIPを活用して画像分類器を体感してみよう！目的：CLIPを活用して、画像分類やプロンプトエンジニアリングを体感する。

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷音声　Whisper
30 Whisper ・ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識システム。・大規模で多様なデータセットを使用したことで、アクセント、背景雑音、専門用語に対する耐性が向上し、多言語での書　き起こしや、多言語から英語への翻訳も可能となった。 https://openai.com/blog/whisper/

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　演習資料へ Whisperを体験してみよう！ 31

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷音声　Whisper
32 3. Whisperを体感！目的：Whisperを活用して、音声からテキスト変換を体感する。音声ファイルは各自準備してください。 .ma4やmp3等、スマートフォンの録音ファイルでも試せると思います。

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルの紹介 ▷MarioGPT:
Open-Ended Text2Level Generation through Large Language Models 33 https://arxiv.org/abs/2302.05981 In this work, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. https://github.com/shyamsn97/mario-gpt

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルとは ▷ChatGPT
34 ChatGPTも基盤モデルやRLを活用 RLHF (Reinforcement Learning from Human Feedback)

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.2 基盤モデルとは ▷ChatGPT
35 https://openai.com/blog/chatgpt/ Step1:教師あり学習 Step2: 報酬モデルの学習 Step3: 強化学習 https://arxiv.org/abs/1706.03741 RLHF（Reinforcement Learning from Human Feedback） RLHFでは報酬の計算は人間のフィードバックに基づいて獲得された報酬予測モデル・データセット作成(人) ・Fine-tune ・人が回答順位付け・順位付きデータで学習・Step1/2モデル(GPT&報酬)　を用いて強化学習

Transformerとは？ 36

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷Transformer
時系列　 Transformer models: an introduction and catalog 37 Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル https://arxiv.org/abs/2302.07730

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷Transformerの誕生　"Attention
Is All You Need"　2017 38 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル Encorder Decorder

時系列 39 Attention Timeline. Figure adapted from Transformer United Course by Stanford. Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル https://arxiv.org/abs/1706.03762 ・RNN, LSTM:時系列データでは定番の手法 Encorder Decorder エンコーダ・デコーダモデルとは？

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷エンコーダとデコーダモデル
40 エンコーダとデコーダモデル Encorder Decorder これエンコーダ（例）入力（言語）を符号化（ベクトル）へ言語→数値へデコーダ（例）符号化（ベクトル）された情報を出力（言語）へ数値→言語へはペンです This is a pen 符号化された情報

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷RNNからAttention
41 □問題点・並列計算が難しい。・長期の依存関係を取り込めない RNN LSTM Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態最後の状態を渡す入力出力 Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態1 入力出力 RNN, LSTM:時系列データでは定番の手法 Attention(注目!)　2014年状態2 状態3 状態4 エンコーダの各状態をデコーダに渡す（どの状態を使用（注目）するかの優先順位） Attention □問題点・入力系列全体で並列化できない

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷AttentionからTransformer
42 Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態1 入力出力 Attention　2014年状態2 状態3 状態4 エンコーダの各状態をデコーダに渡す（どの状態を使用（注目）するかの優先順位） Attention □問題点・入力系列全体で並列化できない Encorder Decorder FF NN FF NN FF NN FF NN 状態1 出力状態2 状態3 状態4 ・再帰性を排除し、セルフアテンションを両者に採用・アテンションを活用したネットワーク Transformer FF NN FF NN FF NN FF NN 入力 2017年から、まだまだ衰えを見せていない ... Transformer　2017年

Is All You Need"　2017 43 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル Encorder Decorder

概要 44 Encoder Embedding：各言葉を固有の特徴ベクトルに変換する。「私」⇒[0.5,0.1,0.4] Positional Encoding：各言葉が何番目の値であるかを表す値を足す。＊Transformer自体はデータの順序を学習することが出来ない。 Multi-Head Attention：入力データの各言葉同士の関連性を抽出。 Add（残差接続） & Norm(Layer normalization)：残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。 Feed Forward：全結合層＋活性化関数（ReLU）+全結合層の構造 Add（残差接続） & Norm(Layer normalization)：残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。

概要 45 Decoder Embedding：各言葉を固有の特徴ベクトルに変換する。 Positional Encoding：各言葉が何番目の値であるかを表す値を足す。＊Transformer自体はデータの順序を学習することが出来ない。 Masked Multi-Head Attention：入力データの一部をマスクして各言葉同士の関連性を抽出します。 Add（残差接続） & Norm(Layer normalization)：残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。 Multi-Head Attention：入力データの各言葉同士の関連性を抽出。 Add（残差接続） & Norm(Layer normalization) Feed Forward：全結合層＋活性化関数（ReLU）+全結合層の構造 Add（残差接続） & Norm(Layer normalization) 全結合層で特徴ベクトルを各言葉に変換し、Softmaxで確率を計算

概要 Multi-Head Attentionを重点的に解説! 46 Encoder Decoder □Transformer 　・Attentionを用いたエンコーダとデコーダモデル □重要な箇所（ここを重点的に説明）　・Multi-Head Attention 　・Scaled Dot-Product Attention 　 https://arxiv.org/abs/1706.03762

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷Scaled
Dot-Product Attention 47 ・Q: query, 　K:key, 　V: value ・Queryは入力・KeyとValueは対になるベクトル Scaled Dot-Product Attention

Dot-Product Attention :お買い物を例にQ K Vを解説 48 Q：お買い物リスト K：商品ラベル V：商品 KとVはペアここの類似度を見ている Q: query, K:key, V: value

Dot-Product Attention 49 https://arxiv.org/abs/1706.03762 ・Q: query, K:key, V: value ・Queryは入力・KeyとValueは対になるベクトル QueryとKeyの類似度（内積）が並んだベクトルスケーリング係数で内積が大きくならないように □内積：ベクトルの類似度を把握できる。・同じ向きを向いていると値は大きい。・逆向いていると値は小さい。 □ソフトマックス関数・ソフトマックス関数の出力は 0から1の間で、　合計は1になる入力QとVの類似度はKにより決まる。QとKの内積が大きいとQとVは類似している。つまりKとVの学習が大事！→Multi-Head Attentionにより学習する！ Scaled Dot-Product Attention:内積で類似度をみている。重みつき和。

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.3 Transformerとは? ▷Multi-Head
Attention 50 Multi-Head Attention:入力Wで操作し、 head(Attentionの出力)を繋げているだけ。 Wはパラメータの行列 Multi-Head Attentionの簡易フロー 1. 行列計算（QKVとパラメータW） 2. Attention 3. Concat (横ベクトルをつなげる ) 4. 行列計算（headとパラメータW） Q, K, Vの正体って何？ Qは入力では...K,Vは？

Attention 51 Multi-Head Attention Q K V X Q=K=VにXを代入？ →入力ベクトルXにそれぞれ異なるWをかけている。 X Q K V 線形変換 Self Attention

概要 52 Encoders Decoders □Transformer 　・Attentionを用いたエンコーダとデコーダモデル □重要な箇所　・Multi-Head Attention 　・Scaled Dot-Product Attention 　 https://arxiv.org/abs/1706.03762

Attention Multi-Head Attention Q K V X Cross Attention Y 53

Is All You Need"　2017 54 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル

基盤モデルの今後 55

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.4 基盤モデルの今後 ▷今後　モデル容量や性能
LLaMA 56 https://twitter.com/MetaAI/status/1629156720483405824 LLaMA: A foundational, 65-billion-parameter large language model -ChatGPT (GPT 3.5): 175B Parameters -Bard (Google LaMDA): 137B Parameters -Baidu Ernie: 260B Parameters -LG Exaone: 300B Parameters -Nvidia Megatron: 530B Parameters -Google PaLM: 540B Parameters https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ ChatLLaMAの流れも・・・？ https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama Large Language Model Meta AI □サイズを抑えながらも精度向上 □ChatLLaMA!?

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.4 基盤モデルの今後 ▷Transformer
や RL 57 Transformerがまだまだ活躍している時代。 RLHF等、あらゆる分野で強化学習の活用も。 https://arxiv.org/abs/2302.07730 □Tuning computer vision models with task rewards 　RLをCV分野にも活用。(2023/2/16) Vision meets RL!!! https://arxiv.org/abs/2302.08242

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 1.4 基盤モデルの今後 ▷Transformer
や RL 58 Transformerと強化学習のサーベイ論文（気になる方は必見です！） https://arxiv.org/abs/2301.03044 Transformer x RL はまだ不安定と述べられている。気になる方はこちらを見てみてください ! [DL輪読会]深層強化学習はなぜ難しいのか？ Why Deep RL fails? A brief A Survey on Transformers in Reinforcement Learning 松尾研関係者も引用されている

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　第２部基盤モデルとロボティクス 59

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　目次: 応用を見据えた近年の発展的話題 1.
基盤モデル 1.1 基盤モデルとは 1.2 基盤モデルの紹介 1.3 Transformerとは 1.4 基盤モデルの今後? 2. 基盤モデルとロボティクス 2.1 Robotics領域への活用事例 2.2 Robotics版基盤モデルをつくるには？ 2.3 松尾研での活用事例(TRAILの内容): 60

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2. 基盤モデルとロボティクス ▷講義の大筋
61 □基盤モデルをロボティクスへ活用　既存の基盤モデルをシステムに組み込む □ロボティクス版基盤モデル　基盤モデルそのものを作る・CLIP 　・BERT 　？ロボットロボット

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　第２部基盤モデルとロボティクス 2.1
ロボティクス領域への活用事例 62

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの俯瞰図
63 Vision Plannning NLP Manipulation Navigation Control ・ロボットはマルチモーダルな処理・基盤モデルと相性が良い https://www.youtube.com/watch?v=FFhiQ7z3zfc

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの活用事例　（ほんのひとにぎりを紹介）
64 Vision Plannning NLP Manipulation Navigation Control Language Models as Zero-Shot Planners SayCan MDM LATTE ATLA GPT BERT CLIP Palm Whisper Detic CLIP-Fields LM-Nav VIMA Transformer 基盤モデルをロボティクスに活用した研究が急激に増加！セマンティクスな点群マップ言語で動作修正自律移動実空間でのプランニング言語空間でのプランニング新しい道具の使い方を効率的に学習マニピュレーションテキストから動作生成 ChatGPTの活用！ ChatGPT for Robotics

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷言語空間でのタスクプランニング
65 Language Models as Zero-Shot Planners https://www.youtube.com/watch?v=CkyugWI3_fc https://arxiv.org/abs/2201.07207 GPT-3 BERT ・基盤モデルであるGPT-3等を活用し、言語空間で　のタスクプランニング

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷実空間でのタスクプランニング　
SayCan 66 SayCan https://arxiv.org/abs/2204.01691 LLM:GPT3等・会話としては妥当な回　答が帰ってくる・ロボットに自然言語で　指示できないのか？ https://say-can.github.io/ Palm https://www.youtube.com/watch?v=E2g1APtSuUM

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷実空間でのタスクプランニング　
SayCan 67 SayCan https://say-can.github.io/ SayCanの目的・言語指示　“I spilled my drink, can you help?” ・行動列　行動列を答える/実行すること →強化学習の問題 1 Xを取る 2 Xを置く 3 Xを並べる 4 引き出しを開ける 5 引き出しを閉める 6 指定した場所に行く 7 特定の操作・7 種類のスキル・17 種類の対象・計 551 個の行動動作は事前にBC-Zなどで用意 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning RetinaGAN https://sites.google.com/view/bc-z/home Palm

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷言語指示動作生成
Motion Diffusion Model :MDM 68 CLIP MDM "A person punches in a manner consistent with martial arts" https://qiita.com/binomiya/items/42e9a0bc4fd924af8fe0 https://guytevet.github.io/mdm-page/ https://www.youtube.com/watch?v=rVkIDj5wgjs

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷言語補助動作生成:
LATTE: LAnguage Trajectory TransformEr 69 https://arxiv.org/abs/2208.02918 CLIP BERT 自然言語指示でロボットの動作修正に試みた研究 (マニピュレータ、ドローン、多足ロボットで実証) https://www.youtube.com/watch?v=Kutc_peSrpw

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷言語補助動作生成:
ATLA: "Leveraging Language for Accelerated Learning of Tool Manipulation" 70 https://arxiv.org/abs/2206.13074 tool manupilationタスクにおいて，言語で条件づけたメタ学習を行うことで，新しい toolに対して効率的に適応できるポリシーを獲得する． (pushing / lifting / sweeping / hammering) task GPT-3 BERT https://www.youtube.com/watch?v=PFiN3T1Vh4M

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷ChatGPT
for Robotics 71 ChatGPT https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/ ・人間が頑張って　コーディングする・Prompt, APIs+Objectiveを　LLM(ChatGPT)に与えコード生成 https://www.youtube.com/watch?v=wLOChUtdqoA

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷CLIP-Feilds
72 CLIP https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-05-clip-fields/ CLIP-Fields ・マップ上の空間的位置に対応するセマンティックな表現ベクトルを得ることができる。・セグメンテーション、ナビゲーションなどのタスクを実行できる。 ◎人手によるラベル付けを必要としない点 Detic Sentence BERT https://mahis.life/clip-fields/ https://www.youtube.com/watch?v=bKu7GvRiSQU

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの活用事例　（ほんのひとにぎりを紹介）
73 Vision Plannning NLP Manipulation Navigation Control Language Models as Zero-Shot Planners SayCan MDM LATTE ATLA GPT BERT CLIP Palm Whisper Detic CLIP-Fields LM-Nav VIMA Transformer 基盤モデルをロボティクスに活用した研究が急激に増加！セマンティクスな点群マップ言語で動作修正自律移動実空間でのプランニング言語空間でのプランニング新しい道具の使い方を効率的に学習マニピュレーションテキストから動作生成 ChatGPTの活用！ ChatGPT for Robotics

ロボティクス版基盤モデルを作るには？（*2.2では私の考えを大きく含みます） 74

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2. 基盤モデルとロボティクス ▷講義の大筋
75 □基盤モデルをロボティクスへ活用　既存の基盤モデルをシステムに組み込む □ロボティクス版基盤モデル　基盤モデルそのものを作る・CLIP 　・BERT 　？ロボットロボット Robotics Transformer 1

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ ▷ロボティクスと基盤モデル
76 https://arxiv.org/abs/2208.02918 CLIP BERT ・これまでの説明では、　基盤モデルをロボットに応用する研究を紹介　CLIPを活用して... 　BERTを活用して... 　GPTを活用して... ・ロボティクス版基盤モデルはあるのか？　RT-1では？MineDojo? 　(Mine Craftの実況動画から学習 ) 　・それだけなのか？もっと沢山ないの？ →ロボティクス版基盤モデルを作ること自体が難しい　何故か... GPT Detic

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ □ロボティクス版基盤モデルの研究背景
・基盤モデルの様な大規模モデルが高い性能を示している。 ChatGPTもその一例。・大規模なデータ、大容量モデルにより高い性能・基盤モデルは新規タスクにも汎化 □ロボット版基盤モデル作成の難しさ・「ロボット」での大規模、大容量モデルの構築 - 実機のロボットで動作・大規模なデータセットの構築 - データ量とタスクの多様性 ▷ロボティクス版基盤モデルの課題 77 ・モデルは言語/画像のようにTransformer? ・ロボットの行動決定 /動作周期はそれなりに求　められる。モデル出力の処理が重要になる。・そもそもロボットのデータ取得が難しい　→web上にロボットデータがない等　→模倣学習や深層強化学習を活用

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 78 https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-15-rt-1/ ・長期間、大量のデータ収集
- デモ数：130k - 使用ロボット（EDR）：13台 - Task数：744 - 収集期間：17ヶ月 - 成功率：97% success rate 言語やビジョン領域では既に大規模データやモデルを用いることで性能が向上している。ロボットでもGoogleがやってみせた。 RT-1:Robotics Transformer 1 2.2 ロボティクス版基盤モデルを作るには？ ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 https://www.youtube.com/watch?v=UuKAp9a6wMs

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 79 2.2 ロボティクス版基盤モデルを作るには？
▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 RT-1の著者陣 https://arxiv.org/abs/2212.06817 ・RT-1 　Github:google-research/robotics_transformer 引用：RT-1

▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Modelsより引用・Mobile Manipulator(移動と作業ができるロボット ) ・7DoF（7自由度）のロボットアーム搭載・グリッパ搭載 ▪EDR(Mobile Manipulator：Everyday Robots)　RT-1で使用したロボット https://www.youtube.com/watch?v=cZT57pkD62w&t=17s

▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 ▪データ収集・長期間、大量のデータ収集 - デモ数：130k - 使用ロボット（EDR）：13台 - Task数：744 - 収集期間：17ヶ月 - 成功率：97% success rate RT-1: Robotics Transformer for Real-World Control at Scaleより引用 https://www.youtube.com/watch?v=f-9Jw3KvPJo ・VRコントローラでロボットを操作

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ ▷ロボティクス版基盤モデル
RT-1　モデル概要 82 入力：画像とテキスト RT-1 出力：Action Mode, Arm, Base RT-1: Robotics Transformer for Real-World Control at Scaleより引用

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ ▷RT-1のモデルカード
83 RT-1: Robotics Transformer for Real-World Control at Scaleより引用

RT-1　別のロボットデータを使用した性能向上 84 ・今まではロボット（EDR）のデータを使用・学習データにはない、 Bin-pickingという新タスク　をロボット(Kuka IIWA)のデータを使用して学習・他のロボットから取得したデータで新タスクを　獲得できるのかを検証。・EDRで検証しBin-pickingのタスク成功率が向上＊EDRとKuka IIWAは構造が異なる RT-1: Robotics Transformer for Real-World Control at Scaleより引用

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ QT-Opt:Scalable
Deep Reinforcement Learning for Vision-Based Robotic Manipulation 前回の古田さんの講義でも (p8) ▷ロボティクス版基盤モデル強化学習の活用　QT-Opt 85 ・過去の探索時の経験データ（オフライン経験データ）を活　用する学習  ・状態：画像、グリッパー開閉のバイナリ値、トレイからの　高さ  ・行動：制御コマンド　グリッパーの移動方向と移動量、回　転量、グリッパー開閉、把持動作を終了命令  https://www.youtube.com/watch?v=W4joe3zzglU

RT-1　別のロボットデータを使用した性能向上 86 RT-1: Robotics Transformer for Real-World Control at Scaleより引用

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？大規模なデータセットの構築　データ量とタスクの多様性
▷Scaling Robot Learning with Semantically Imagined Experience (ROSIE) 87 https://twitter.com/xf1280/status/1628483168306364416 https://diffusion-rosie.github.io/ https://www.youtube.com/watch?v=TRYgNHDS7II&t=1s

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ ▷MOO:Open-World
Object Manipulation using Pre-Trained Vision-Language Models 88 https://robot-moo.github.io/ MOO: Manipulation of Open-World Objects https://twitter.com/xiao_ted/status/1631061177663987713 https://twitter.com/hausman_k/status/1631073653982138368?s=20 https://www.youtube.com/watch?v=KyvHTbLRovI

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ □ロボティクス版基盤モデルの研究背景
・基盤モデルの様な大規模モデルが高い性能を示している。 ChatGPTもその一例。・大規模なデータ、大容量モデルにより高い性能・基盤モデルは新規タスクにも汎化 □ロボット版基盤モデル作成の難しさ・「ロボット」での大規模、大容量モデルの構築 - 実機のロボットで動作・大規模なデータセットの構築 - データ量とタスクの多様性 ▷ロボティクス版基盤モデルの課題 89 ・モデルは言語/画像のようにTransformer? ・ロボットの行動決定 /動作周期はそれなりに求　められる。モデル出力の処理が重要になる。・そもそもロボットのデータ取得が難しい　→web上にロボットデータがない等　→模倣学習や深層強化学習を活用

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ ▷Pre-Training
for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials 90 https://www.youtube.com/watch?v=van6wejvUDQ ・概要 1. 事前学習として多様なマルチタスクに対するオフライン強化学習 2. Fine-tuneをすることで、新しいタスクに対応事前学習にはBridge Dataを使用 https://arxiv.org/abs/2210.05178

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.2 ロボティクス版基盤モデルを作るには？ ▷GNM:
A General Navigation Model to Drive Any Robot 91 https://www.youtube.com/watch?v=ICeD6iOglKc ・概要 - 多種ロボットのナビゲーションができるプランナーを学習している - ８種類のロボットからなる計60時間のデータセットを学習にしよう - input - 観測画像、ゴール画像、Embodiment Context(過去k step観測画像） - 距離とwaypointを予測 -これをロボット別のlow-levelコントローラーで追っている https://arxiv.org/abs/2210.03370

松尾研での活用事例 92

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　 2.3 松尾研での活用事例 ▷TRAIL
93 ・CLIPを活用最近ではSayCanやGPT等も試しています。 https://www.youtube.com/watch?v=FFhiQ7z3zfc

スプリングセミナー2023 深層強化学習　第6回資料改変版 | 小林聖人　Masato Kobayashi 　応用を見据えた近年の発展的話題　基盤モデルとロボティクスおわりに...本講義では以下を目標に講義しました。
本講義の概要：基盤モデルの概略やロボティクスへの応用事例を学ぶ 1. 基盤モデル、Transformer 2. 基盤モデルとロボティクス目標： ▷基盤モデルや Transformerの概要を理解する ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい　て理解する（強化学習との関わりについても適宜述べていきます）少しでも皆様の理解の助けになれれば幸いです！ 94 担当講師：小林　聖人　博士 (工学) Twitter: @robotmkb , @MeRTcooking　フォローもwelcomeです！

Foundation Model and Robotics | 基盤モデルとロボティクス

Foundation Model and Robotics | 基盤モデルとロボティクス

Other Decks in Research

Featured

Transcript