Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Foundation Model and Robotics | 基盤モデルとロボティクス

Foundation Model and Robotics | 基盤モデルとロボティクス

東京大学松尾豊研究室のメンバー中心に、講義を行っている深層強化学習 スプリングセミナー2023の第6回目の前半の講義である「基盤モデルとロボティクス」の講義資料を改変した資料です。(講義は2023/3/3に実施)

本講義では、最近話題の『ChatGPT』等にも使用されている『基盤モデルやTransformer』についてお話し、基盤モデルをロボティクスへの活用事例や今後の展開についてもお話ししました。
演習(ハンズオン)ではGPT2,CLIP,Whisperを取り扱っています。

本講義資料は、深層強化学習 スプリングセミナー2023の第6回目の前半60分の講義資料がベースになっています.
https://deeplearning.jp/drl-course-2023sp/

本講義の到達目標:
・基盤モデルやTransformerの概要を理解する
・基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法について理解する

基盤モデルについてはTRAILのブログもご覧ください。
https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/

Masato Kobayashi

March 13, 2023
Tweet

Other Decks in Research

Transcript

  1. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   基盤モデルとロボティクス Foundation Model

    and Robotics *スプリングセミナー 2023 深層強化学習 第6回 前半の講義資料を改変 講義日: 2023年3月3日 担当講師:小林 聖人 博士(工学) Twitter: @robotmkb , @MeRTcooking 1 スプリングセミナー2023 深層強化学習 https://twitter.com/Matsuo_Lab/status/1617723687331069952
  2. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   はじめに 2 本講義資料は、

    深層強化学習 スプリングセミナー2023の第6回目の前半60分の講義資料がベースになっています。 所々、事前知識が必要な箇所は、次回開催する深層強化学習のセミナーを受講してみてください。 講師の口頭講義前提の資料のため、わかりにくい箇所もありますが、ご了承ください。 https://twitter.com/Matsuo_Lab/status/1617723687331069952
  3. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   0. 自己紹介 小林 聖人 (Twitter:

    @robotmkb , @MeRTcooking)   □ 2022/10 ~ 2023/3:神戸大学 大学院海事科学研究科 学術研究員 - 東京大学松尾豊研究室との業務がメイン(基礎研究やロボットデモ) - TRAIL (Tokyo Robotics and AI Lab): 学部1年生中心! @trail_ut - OUXT Polaris (国際自律航行船ロボコン学生主体チーム ) @OUXT_Polaris □ 2021/11~2022/3:オムロンサイニックエックス株式会社 リサーチインターン - ロボティクス×AIの研究 メンター様 2名, オックスフォード大学 博士課程1名 □ 2021/11~2022/9:国立研究開発法人科学技術振興機構 (JST) 次世代研究者挑戦的研究プログラム □ 2019/10 ~ 2022/9:神戸大学 博士(工学)  - 自律・遠隔ロボット関係の研究(主に移動やマニピュレーション) - 私費での社会人博士課程 □ 2019/4~2021/9:セイコーエプソン株式会社 技術開発本部 知能ロボットや製造装置に関する業務 □ 2019/3: 神戸大学 海事科学研究科 修士課程修了  - 制御、モーションコントロール、ロボティクス 3 フォローお待ちしてます ! Motion-Copying System 自律移動手法 : DWV 練習船
  4. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   目次: 応用を見据えた近年の発展的話題 概要:基盤モデルの概略やロボティクスへの応用事例を学ぶ

    1. 基盤モデル、Transformer 2. 基盤モデルとロボティクス 目標: ▷基盤モデルやTransformerの概要を理解する ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい  て理解する  (強化学習との関わりについても適宜述べていきます) 5
  5. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   参考資料 【基盤モデルやTransformer関係】 □TRAIL

    ブログ「基盤モデルとは」 - 基盤モデルの概要について説明。本記事は 東京大学松尾豊研究室 のサブグループである TRAILのテックブログでご紹介。 □基盤モデル×ロボティクス アドベントカレンダー - 東京大学 松尾研究室が主催する「基盤モデル ×Robotics」に関するAdvent Calendar 2022 □【メタサーベイ】基盤モデル / Foundation Models - cvpaper.challenge の メタサーベイ発表スライド □コンピュータビジョン最前線 Summer 2022 - 「イマドキノ基盤モデル」では、 Bommasaniらによって提案された基盤モデル( foundation model)の概念ついて解説。 □Vision Transformer入門 □機械学習エンジニアのための Transformers 【ロボティクス】 □ROS2とPythonで作って学ぶAIロボット入門 □実践ロボット制御 6 ◎深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版
  6. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   目次: 応用を見据えた近年の発展的話題 1.

    基盤モデル 40分 1.1 基盤モデルとは 1.2 基盤モデルの紹介や活用事例 1.3 Transformerとは 1.4 基盤モデルの今後? 2. 基盤モデルとロボティクス 20分 2.1 Robotics領域への活用事例 2.2 Robotics版基盤モデルをつくるには? 2.3 松尾研での活用事例(TRAILの内容): 7
  7. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   演習資料へ 講義中に使用する演習資料を Google

    Colabで事前に立ち上げておいてください 8 演習資料はこちら https://github.com/mertcookimg/FoundationModel/blob/main/DRL2023_Ch6/chap06.ipynb スターお待ちしています m(- -)m
  8. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷はじめに 基盤モデルは身近な存在に

    ... 12 ☆話題のChatGPT(基盤モデルのGPTや強化学習が活用されている) https://twitter.com/shanegJP 参考資料 ▪松尾研究室資料  AIの進化と日本の戦略 ▪Twitter シェインさん ChatGPT強化学習技術リード兼 日本担当 GPT:Generative Pretrained Transformer
  9. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは •

    2021/8/16初出のホワイトペー パーで登場した言葉 • Stanfordの研究機関の名称に もなっている(青枠) (Abstractより抜粋) “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character” ▷基盤モデルの提唱論文 13 https://arxiv.org/abs/2108.07258 ざっくりと概要は・・・?
  10. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-01-foundation-model/

    基盤モデルとは... 大量で多様なデータ を用いて訓練され, 様々なタスクに適応(ファインチューニングなど)できる大規模モデル 第一部が終わる頃にこの図を振り返ってみましょう! 少し理解が深まったはずです! なんだか わかったような? わからんような? ▷はじめに 14 ①Multi Modal ②Emergence at Scale ③Few-Shot/Zero-Shot ability
  11. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは 基盤モデルとは...

    大量で多様なデータを用いて訓練され , 様々なタスクに適応(ファインチューニングなど)できる大規模モデル ▷はじめに 15 ☆これまでのdeep learning (☆Pre-training & Fine-Tuning誕生以前) 学習 ・大量の教師データ ・大量の計算資源 労力&計算資源がないと無理! 事前学習 pre-training fine-tuning ☆Pre-training & Fine-Tuning誕生以降 ・大量の教師データ ・大量の計算資源 →各組織に任せる! ・少量の教師データ ・少量の計算資源 →個人で学習が可能に! 個別に適応 label: ねこ
  12. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷はじめに

    16 タスクごとに必要な データの量 タスクごとの モデリング 分布外データへの 頑丈性 従来モデル 大 個別 弱 基盤モデル(学習済) 小 適応 強 https://blog.recruit.co.jp/data/articles/foundation_models/#fnref:1 従来モデル:「単一タスク, 単一モデル」 基盤モデル:「多様なタスク, 汎化モデル」と活用することが可能 ☆基盤モデルを使うとタスク毎にモデルを設計する必要がなくなる。
  13. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは •

    2021/8/16初出のホワイトペー パーで登場した言葉 • Stanfordの研究機関の名称に もなっている(青枠) (Abstractより抜粋) “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character” ▷基盤モデルの提唱論文 17 https://arxiv.org/abs/2108.07258 何故そもそも基盤モデルが注目されていったのか・・・
  14. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷基盤モデルが台頭した訳

    18 • ハードウェア性能・能力とソフトウェアの最適化 • Transformerモデルの発明 (1.3で解説) • 大規模データの利活用 (こちらについて次のスライドから解説) ・Transformer ・GPUの処理性能  2016年〜2020年  10倍に向上 ・表現力 ・拡張性 ・マルチモダリティ ・記憶容量 ・多要素合成性
  15. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷大規模データ

    : Scaling Law 19 引用 https://arxiv.org/abs/2001.08361 3つの変数(計算資源 C, データセットサイズ D, パラメータ数 N)に関するべき乗に従って性能が上がる .   3変数を大きくすればするほど基盤モデルの性能が向上する。 *GPT-3は、web上のデータ(4兆単語)で事前学習。1750億パラメータ。学習に数億〜数十億円のコスト。 https://arxiv.org/abs/2001.08361
  16. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷大規模データ

    : Emergent Ability ある閾値(モデルサイズ)から突然性能が向上 →モデルのサイズが巨大なときのみ突如解ける 
 言語モデル モデルサイズ データやモデルを巨大にする流れに・・・ https://arxiv.org/abs/2001.08361 20
  17. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.1 基盤モデルとは ▷Transformer

    時系列  Transformer models: an introduction and catalog 21 Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル 2017年〜2023年にかけて様々なTransformerベースのモデルが誕生 ! https://arxiv.org/abs/2302.07730
  18. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷はじめに:1部の演習ではHuggingFaceを活用します

    23 https://huggingface.co/ HuggingFace 学習済みの機械学習モデルやデータセットなどを公開 https://huggingface.co/openai/clip-vit-base-patch32 CLIP:Vision and Language Model
  19. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Language:GPT

    (Generative Pretrained Transformer) 24 ・Transformerのデコーダをベース ・質問や推論が可能に ・GPT→GPT2→GPT3とほとんどモデルを変更せずにパラメータやデータを増加 ・パラメータ数 GPT:1億17百万個→GPT-2:15億個→GPT-3:1,750億個 ・InstrusctGPT : GPT3は人間にとって好ましくない文章生成もあり、人間の評価を反映                                       (後ほど紹介) GPT (Generative Pretrained Transformer)
  20. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Language:GPT2を演習で体感 

    26 1. GPT2を体感 GPT2を活用して文章生成をしてみましょう! 目的:GPT2を活用して文章の続きを生成してくれる様子を体感する。
  21. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Vision

    and Language:CLIPを演習で体感 27 ・CLIP   インターネットから集めた画像とテキストの 40億ペアからなるデータセットからモデルを学習することで、多くの下流 タスクに対するゼロショット性能を高めることが可能になった。 https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-02-clip/
  22. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷Vision

    and Language:CLIPを演習で体感 29 2. CLIPを体感 CLIPを活用して画像分類器を体感してみよう! 目的:CLIPを活用して、画像分類やプロンプトエンジニアリングを体感する。
  23. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷音声 Whisper

    30 Whisper ・ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識システム。 ・大規模で多様なデータセットを使用したことで、アクセント、背景雑音、専門用語に対する耐性が向上し、多言語での書 き起こしや、 多言語から英語への翻訳も可能となった。 https://openai.com/blog/whisper/
  24. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷音声 Whisper

    32 3. Whisperを体感! 目的:Whisperを活用して、音声からテキスト変換を体感する。 音声ファイルは各自準備してください。 .ma4やmp3等、スマートフォンの録音ファイルでも試せると思います。
  25. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルの紹介 ▷MarioGPT:

    Open-Ended Text2Level Generation through Large Language Models 33 https://arxiv.org/abs/2302.05981 In this work, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. https://github.com/shyamsn97/mario-gpt
  26. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.2 基盤モデルとは ▷ChatGPT

    35 https://openai.com/blog/chatgpt/ Step1:教師あり学習 Step2: 報酬モデルの学習 Step3: 強化学習 https://arxiv.org/abs/1706.03741 RLHF(Reinforcement Learning from Human Feedback) RLHFでは報酬の計算は人間の フィードバックに基づいて獲得され た報酬予測モデル ・データセット作成(人) ・Fine-tune ・人が回答順位付け ・順位付きデータで学習 ・Step1/2モデル(GPT&報酬) を 用いて強化学習
  27. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer

    時系列  Transformer models: an introduction and catalog 37 Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル https://arxiv.org/abs/2302.07730
  28. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformerの誕生 "Attention

    Is All You Need" 2017 38 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル Encorder Decorder
  29. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer

    時系列 39 Attention Timeline. Figure adapted from Transformer United Course by Stanford. Transformer: Attentionというモデルを用いたエンコーダとデコーダモデル https://arxiv.org/abs/1706.03762 ・RNN, LSTM:時系列データでは定番の手法 Encorder Decorder エンコーダ・デコーダモデルとは?
  30. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷エンコーダとデコーダモデル

    40 エンコーダとデコーダモデル Encorder Decorder これ エンコーダ (例)入力(言語)を符号化(ベクトル)へ 言語→数値へ デコーダ (例)符号化(ベクトル)された情報を出力(言語)へ 数値→言語へ は ペン です This is a pen 符号化 された情報
  31. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷RNNからAttention

    41 □問題点 ・並列計算が難しい。 ・長期の依存関係を取り込めない RNN LSTM Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態 最後の状態を渡す 入力 出力 Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態1 入力 出力 RNN, LSTM:時系列データでは定番の手法 Attention(注目!) 2014年 状態2 状態3 状態4 エンコーダの各状態をデコーダに渡す (どの状態を使用(注目)するかの優先順位) Attention □問題点 ・入力系列全体で並列化できない
  32. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷AttentionからTransformer

    42 Encorder Decorder RNN RNN RNN RNN RNN RNN RNN RNN 状態1 入力 出力 Attention 2014年 状態2 状態3 状態4 エンコーダの各状態をデコーダに渡す (どの状態を使用(注目)するかの優先順位) Attention □問題点 ・入力系列全体で並列化できない Encorder Decorder FF NN FF NN FF NN FF NN 状態1 出力 状態2 状態3 状態4 ・再帰性を排除し、セルフアテンションを両者に採用 ・アテンションを活用したネットワーク Transformer FF NN FF NN FF NN FF NN 入力 2017年から、まだまだ衰えを見せていない ... Transformer 2017年
  33. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformerの誕生 "Attention

    Is All You Need" 2017 43 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル Encorder Decorder
  34. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer

    概要 44 Encoder Embedding:各言葉を固有の特徴ベクトルに変換する。「私」⇒[0.5,0.1,0.4] Positional Encoding:各言葉が何番目の値であるかを表す値を足す。 *Transformer自体はデータの順序を学習することが出来ない。 Multi-Head Attention:入力データの各言葉同士の関連性を抽出。 Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。 Feed Forward:全結合層+活性化関数(ReLU)+全結合層の構造 Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。
  35. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer

    概要 45 Decoder Embedding:各言葉を固有の特徴ベクトルに変換する。 Positional Encoding:各言葉が何番目の値であるかを表す値を足す。 *Transformer自体はデータの順序を学習することが出来ない。 Masked Multi-Head Attention: 入力データの一部をマスクして各言葉同士の関連性を抽出します。 Add(残差接続) & Norm(Layer normalization):残差接続+ミニバッチ毎の標準化Layer normalizationで、勾配消失を軽減しつつ層数を増やす。 Multi-Head Attention:入力データの各言葉同士の関連性を抽出。 Add(残差接続) & Norm(Layer normalization) Feed Forward:全結合層+活性化関数(ReLU)+全結合層の構造 Add(残差接続) & Norm(Layer normalization) 全結合層で特徴ベクトルを各言葉に変換し、Softmaxで確率を計算
  36. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer

    概要 Multi-Head Attentionを重点的に解説! 46 Encoder Decoder □Transformer  ・Attentionを用いたエンコーダとデコーダモデル □重要な箇所(ここを重点的に説明)  ・Multi-Head Attention  ・Scaled Dot-Product Attention   https://arxiv.org/abs/1706.03762
  37. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Scaled

    Dot-Product Attention 47 ・Q: query,  K:key,  V: value ・Queryは入力 ・KeyとValueは対になるベクトル Scaled Dot-Product Attention
  38. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Scaled

    Dot-Product Attention :お買い物を例にQ K Vを解説 48 Q:お買い物リスト K:商品ラベル V:商品 KとVはペア ここの類似度を見ている Q: query, K:key, V: value
  39. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Scaled

    Dot-Product Attention 49 https://arxiv.org/abs/1706.03762 ・Q: query, K:key, V: value ・Queryは入力 ・KeyとValueは対になるベクトル QueryとKeyの類似度(内積)が並んだベクトル スケーリング係数で内積が大きくならないように □内積:ベクトルの類似度を把握できる。 ・同じ向きを向いていると値は大きい。 ・逆向いていると値は小さい。 □ソフトマックス関数 ・ソフトマックス関数の出力は 0から1の間で、  合計は1になる 入力QとVの類似度はKにより決まる。QとKの内積が大きいとQとVは類似している。 つまりKとVの学習が大事!→Multi-Head Attentionにより学習する! Scaled Dot-Product Attention:内積で類似度をみている。重みつき和。
  40. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Multi-Head

    Attention 50 Multi-Head Attention:入力Wで操作し、 head(Attentionの出力)を繋げているだけ。 Wはパラメータの行列 Multi-Head Attentionの簡易フロー 1. 行列計算(QKVとパラメータW) 2. Attention 3. Concat (横ベクトルをつなげる ) 4. 行列計算(headとパラメータW) Q, K, Vの正体って何? Qは入力では...K,Vは?
  41. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Multi-Head

    Attention 51 Multi-Head Attention Q K V X Q=K=VにXを代入? →入力ベクトルXにそれぞれ異なるWをかけている。 X Q K V 線形変換 Self Attention
  42. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformer

    概要 52 Encoders Decoders □Transformer  ・Attentionを用いたエンコーダとデコーダモデル □重要な箇所  ・Multi-Head Attention  ・Scaled Dot-Product Attention   https://arxiv.org/abs/1706.03762
  43. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.3 Transformerとは? ▷Transformerの誕生 "Attention

    Is All You Need" 2017 54 https://arxiv.org/abs/1706.03762 Transformer: Attentionを用いたエンコーダとデコーダモデル
  44. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.4 基盤モデルの今後 ▷今後 モデル容量や性能

    LLaMA 56 https://twitter.com/MetaAI/status/1629156720483405824 LLaMA: A foundational, 65-billion-parameter large language model -ChatGPT (GPT 3.5): 175B Parameters -Bard (Google LaMDA): 137B Parameters -Baidu Ernie: 260B Parameters -LG Exaone: 300B Parameters -Nvidia Megatron: 530B Parameters -Google PaLM: 540B Parameters https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ ChatLLaMAの流れも・・・? https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama Large Language Model Meta AI □サイズを抑えながらも精度向上 □ChatLLaMA!?
  45. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.4 基盤モデルの今後 ▷Transformer

    や RL 57 Transformerがまだまだ活躍している時代。 RLHF等、あらゆる分野で強化学習の活用も。 https://arxiv.org/abs/2302.07730 □Tuning computer vision models with task rewards  RLをCV分野にも活用。(2023/2/16) Vision meets RL!!! https://arxiv.org/abs/2302.08242
  46. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   1.4 基盤モデルの今後 ▷Transformer

    や RL 58 Transformerと強化学習のサーベイ論文(気になる方は必見です!) https://arxiv.org/abs/2301.03044 Transformer x RL はまだ不安定と述べられている。 気になる方はこちらを見てみてください ! [DL輪読会]深層強化学習はなぜ難しいのか? Why Deep RL fails? A brief A Survey on Transformers in Reinforcement Learning 松尾研関係者も引用されている
  47. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   目次: 応用を見据えた近年の発展的話題 1.

    基盤モデル 1.1 基盤モデルとは 1.2 基盤モデルの紹介 1.3 Transformerとは 1.4 基盤モデルの今後? 2. 基盤モデルとロボティクス 2.1 Robotics領域への活用事例 2.2 Robotics版基盤モデルをつくるには? 2.3 松尾研での活用事例(TRAILの内容): 60
  48. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2. 基盤モデルとロボティクス ▷講義の大筋

    61 □基盤モデルをロボティクスへ活用  既存の基盤モデルをシステムに組み込む □ロボティクス版基盤モデル  基盤モデルそのものを作る ・CLIP   ・BERT   ? ロボット ロボット
  49. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの俯瞰図

    63 Vision Plannning NLP Manipulation Navigation Control ・ロボットはマルチモーダルな処理 ・基盤モデルと相性が良い https://www.youtube.com/watch?v=FFhiQ7z3zfc
  50. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの活用事例 (ほんのひとにぎりを紹介)

    64 Vision Plannning NLP Manipulation Navigation Control Language Models as Zero-Shot Planners SayCan MDM LATTE ATLA GPT BERT CLIP Palm Whisper Detic CLIP-Fields LM-Nav VIMA Transformer 基盤モデルをロボティクスに活用した研究が急激に増加! セマンティクスな点群マップ 言語で動作修正 自律移動 実空間でのプランニング 言語空間でのプランニング 新しい道具の使い方を効率的に学習 マニピュレーション テキストから動作生成 ChatGPTの活用! ChatGPT for Robotics
  51. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語空間でのタスクプランニング

    65 Language Models as Zero-Shot Planners https://www.youtube.com/watch?v=CkyugWI3_fc https://arxiv.org/abs/2201.07207 GPT-3 BERT ・基盤モデルであるGPT-3等を活用し、言語空間で の タスクプランニング
  52. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷実空間でのタスクプランニング 

    SayCan 66 SayCan https://arxiv.org/abs/2204.01691 LLM:GPT3等 ・会話としては妥当な回  答が帰ってくる ・ロボットに自然言語で 指 示できないのか? https://say-can.github.io/ Palm https://www.youtube.com/watch?v=E2g1APtSuUM
  53. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷実空間でのタスクプランニング 

    SayCan 67 SayCan https://say-can.github.io/ SayCanの目的 ・言語指示  “I spilled my drink, can you help?” ・行動列  行動列を答える/実行すること →強化学習の問題 1 Xを取る 2 Xを置く 3 Xを並べる 4 引き出しを開ける 5 引き出しを閉める 6 指定した場所に行く 7 特定の操作 ・7 種類のスキル ・17 種類の対象 ・計 551 個 の行動 動作は事前にBC-Zなどで用意 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning RetinaGAN https://sites.google.com/view/bc-z/home Palm
  54. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語指示動作生成

    Motion Diffusion Model :MDM 68 CLIP MDM "A person punches in a manner consistent with martial arts" https://qiita.com/binomiya/items/42e9a0bc4fd924af8fe0 https://guytevet.github.io/mdm-page/ https://www.youtube.com/watch?v=rVkIDj5wgjs
  55. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語補助動作生成:

    LATTE: LAnguage Trajectory TransformEr 69 https://arxiv.org/abs/2208.02918 CLIP BERT 自然言語指示でロボットの動作修正に試みた研究 (マニピュレータ、ドローン、多足ロボットで実証) https://www.youtube.com/watch?v=Kutc_peSrpw
  56. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷言語補助動作生成:

    ATLA: "Leveraging Language for Accelerated Learning of Tool Manipulation" 70 https://arxiv.org/abs/2206.13074 tool manupilationタスクにおいて,言語で条件づけたメタ学 習を行うことで,新しい toolに対して効率的に適応できるポリ シーを獲得する. (pushing / lifting / sweeping / hammering) task GPT-3 BERT https://www.youtube.com/watch?v=PFiN3T1Vh4M
  57. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷ChatGPT

    for Robotics 71 ChatGPT https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/ ・人間が頑張って  コーディングする ・Prompt, APIs+Objectiveを  LLM(ChatGPT)に与えコード生成 https://www.youtube.com/watch?v=wLOChUtdqoA
  58. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷CLIP-Feilds

    72 CLIP https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-05-clip-fields/ CLIP-Fields ・マップ上の空間的位置に対応するセマンティックな表現ベクトルを得ることができる。 ・セグメンテーション、ナビゲーションなどのタスクを実行できる。 ◎人手によるラベル付けを必要としない点 Detic Sentence BERT https://mahis.life/clip-fields/ https://www.youtube.com/watch?v=bKu7GvRiSQU
  59. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.1 ロボティクス領域への活用事例 ▷基盤モデルとロボティクスの活用事例 (ほんのひとにぎりを紹介)

    73 Vision Plannning NLP Manipulation Navigation Control Language Models as Zero-Shot Planners SayCan MDM LATTE ATLA GPT BERT CLIP Palm Whisper Detic CLIP-Fields LM-Nav VIMA Transformer 基盤モデルをロボティクスに活用した研究が急激に増加! セマンティクスな点群マップ 言語で動作修正 自律移動 実空間でのプランニング 言語空間でのプランニング 新しい道具の使い方を効率的に学習 マニピュレーション テキストから動作生成 ChatGPTの活用! ChatGPT for Robotics
  60. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   第2部 基盤モデルとロボティクス 2.2

    ロボティクス版 基盤モデルを作るには? (*2.2では私の考えを大きく含みます) 74
  61. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2. 基盤モデルとロボティクス ▷講義の大筋

    75 □基盤モデルをロボティクスへ活用  既存の基盤モデルをシステムに組み込む □ロボティクス版基盤モデル  基盤モデルそのものを作る ・CLIP   ・BERT   ? ロボット ロボット Robotics Transformer 1
  62. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクスと基盤モデル

    76 https://arxiv.org/abs/2208.02918 CLIP BERT ・これまでの説明では、  基盤モデルをロボットに応用する研究を紹介  CLIPを活用して...  BERTを活用して...  GPTを活用して... ・ロボティクス版基盤モデルはあるのか?  RT-1では?MineDojo?  (Mine Craftの実況動画から学習 )   ・それだけなのか?もっと沢山ないの? →ロボティクス版基盤モデルを作ること自体が難しい  何故か... GPT Detic
  63. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? □ロボティクス版基盤モデルの研究背景

    ・基盤モデルの様な大規模モデルが高い性能を示している。 ChatGPTもその一例。 ・大規模なデータ、大容量モデルにより高い性能 ・基盤モデルは新規タスクにも汎化 □ロボット版基盤モデル作成の難しさ ・「ロボット」での大規模、大容量モデルの構築 - 実機のロボットで動作 ・大規模なデータセットの構築 - データ量とタスクの多様性 ▷ロボティクス版基盤モデルの課題 77 ・モデルは言語/画像のようにTransformer? ・ロボットの行動決定 /動作周期はそれなりに求 め られる。モデル出力の処理が重要になる。 ・そもそもロボットのデータ取得が難しい  →web上にロボットデータがない等  →模倣学習や深層強化学習を活用
  64. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   78 https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-15-rt-1/ ・長期間、大量のデータ収集

    - デモ数:130k - 使用ロボット(EDR):13台 - Task数:744 - 収集期間:17ヶ月 - 成功率:97% success rate 言語やビジョン領域では既に大規模データや モデルを用いることで性能が向上している。 ロボットでもGoogleがやってみせた。 RT-1:Robotics Transformer 1 2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 https://www.youtube.com/watch?v=UuKAp9a6wMs
  65. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   79 2.2 ロボティクス版基盤モデルを作るには?

    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 RT-1の著者陣 https://arxiv.org/abs/2212.06817 ・RT-1  Github:google-research/robotics_transformer 引用:RT-1
  66. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   80 2.2 ロボティクス版基盤モデルを作るには?

    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Modelsより引用 ・Mobile Manipulator(移動と作業ができるロボット ) ・7DoF(7自由度)のロボットアーム搭載 ・グリッパ搭載 ▪EDR(Mobile Manipulator:Everyday Robots) RT-1で使用したロボット https://www.youtube.com/watch?v=cZT57pkD62w&t=17s
  67. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   81 2.2 ロボティクス版基盤モデルを作るには?

    ▷ロボティクス版基盤モデルへ Robotics Transformer 1 : RT-1 ▪データ収集 ・長期間、大量のデータ収集 - デモ数:130k - 使用ロボット(EDR):13台 - Task数:744 - 収集期間:17ヶ月 - 成功率:97% success rate RT-1: Robotics Transformer for Real-World Control at Scaleより引用 https://www.youtube.com/watch?v=f-9Jw3KvPJo ・VRコントローラでロボットを操作
  68. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデル

    RT-1 モデル概要 82 入力:画像とテキスト RT-1 出力:Action Mode, Arm, Base RT-1: Robotics Transformer for Real-World Control at Scaleより引用
  69. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷ロボティクス版基盤モデル

    RT-1 別のロボットデータを使用した性能向上 84 ・今まではロボット(EDR)のデータを使用 ・学習データにはない、 Bin-pickingという新タスク を ロボット(Kuka IIWA)のデータを使用して学習 ・他のロボットから取得したデータで新タスクを 獲得 できるのかを検証。 ・EDRで検証しBin-pickingのタスク成功率が向上 *EDRとKuka IIWAは構造が異なる RT-1: Robotics Transformer for Real-World Control at Scaleより引用
  70. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? QT-Opt:Scalable

    Deep Reinforcement Learning for Vision-Based Robotic Manipulation 前回の古田さんの講義でも (p8) ▷ロボティクス版基盤モデル 強化学習の活用 QT-Opt 85 ・過去の探索時の経験データ(オフライン経験データ)を活 用す る学習
 ・状態:画像、グリッパー開閉のバイナリ値、トレイからの 高さ
 ・行動:制御コマンド グリッパーの移動方向と移動量、回 転量、 グリッパー開閉、把持動作を終了命令
 https://www.youtube.com/watch?v=W4joe3zzglU
  71. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? 大規模なデータセットの構築 データ量とタスクの多様性

    ▷Scaling Robot Learning with Semantically Imagined Experience (ROSIE) 87 https://twitter.com/xf1280/status/1628483168306364416 https://diffusion-rosie.github.io/ https://www.youtube.com/watch?v=TRYgNHDS7II&t=1s
  72. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷MOO:Open-World

    Object Manipulation using Pre-Trained Vision-Language Models 88 https://robot-moo.github.io/ MOO: Manipulation of Open-World Objects https://twitter.com/xiao_ted/status/1631061177663987713 https://twitter.com/hausman_k/status/1631073653982138368?s=20 https://www.youtube.com/watch?v=KyvHTbLRovI
  73. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? □ロボティクス版基盤モデルの研究背景

    ・基盤モデルの様な大規模モデルが高い性能を示している。 ChatGPTもその一例。 ・大規模なデータ、大容量モデルにより高い性能 ・基盤モデルは新規タスクにも汎化 □ロボット版基盤モデル作成の難しさ ・「ロボット」での大規模、大容量モデルの構築 - 実機のロボットで動作 ・大規模なデータセットの構築 - データ量とタスクの多様性 ▷ロボティクス版基盤モデルの課題 89 ・モデルは言語/画像のようにTransformer? ・ロボットの行動決定 /動作周期はそれなりに求 め られる。モデル出力の処理が重要になる。 ・そもそもロボットのデータ取得が難しい  →web上にロボットデータがない等  →模倣学習や深層強化学習を活用
  74. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷Pre-Training

    for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials 90 https://www.youtube.com/watch?v=van6wejvUDQ ・概要 1. 事前学習として多様なマルチタスクに対するオフライン強化学 習 2. Fine-tuneをすることで、新しいタスクに対応 事前学習にはBridge Dataを使用 https://arxiv.org/abs/2210.05178
  75. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.2 ロボティクス版基盤モデルを作るには? ▷GNM:

    A General Navigation Model to Drive Any Robot 91 https://www.youtube.com/watch?v=ICeD6iOglKc ・概要 - 多種ロボットのナビゲーションができるプランナーを学習している - 8種類のロボットからなる計60時間のデータセットを学習にしよう - input - 観測画像、ゴール画像、Embodiment Context(過去k step観測画像) - 距離とwaypointを予測 -これをロボット別のlow-levelコントローラーで追っている https://arxiv.org/abs/2210.03370
  76. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   2.3 松尾研での活用事例 ▷TRAIL

    93 ・CLIPを活用 最近ではSayCanやGPT等も試しています。 https://www.youtube.com/watch?v=FFhiQ7z3zfc
  77. スプリングセミナー2023 深層強化学習 第6回 資料改変版 | 小林聖人 Masato Kobayashi   応用を見据えた近年の発展的話題  基盤モデルとロボティクス おわりに...本講義では以下を目標に講義しました。

    本講義の概要:基盤モデルの概略やロボティクスへの応用事例を学ぶ 1. 基盤モデル、Transformer 2. 基盤モデルとロボティクス 目標: ▷基盤モデルや Transformerの概要を理解する ▷基盤モデルとロボティクスの研究事例を把握し、基盤モデルの応用方法につい  て理解する(強化学習との関わりについても適宜述べていきます) 少しでも皆様の理解の助けになれれば幸いです! 94 担当講師:小林 聖人 博士 (工学) Twitter: @robotmkb , @MeRTcooking フォローもwelcomeです!