$30 off During Our Annual Pro Sale. View Details »

CCC winter 2022  基盤モデル

tosei_akira
December 13, 2022

CCC winter 2022  基盤モデル

CCC winter 2022 で講演した基盤モデルについての資料

tosei_akira

December 13, 2022
Tweet

Other Decks in Science

Transcript

  1. CCC WINTER 2022
    基盤モデル
    藤井 亮宏

    View Slide

  2. Foundation Model
    基盤モデル

    View Slide

  3. 基盤モデルとは?
    「大規模データセットで学習した巨大なモデルで、あらゆるタスクや
    アプリケーションに対応できる」というモデル
    3
    Bommasani et al., On the Opportunities
    and Risks of Foundation Models. 2021
    https://gpt3demo.com/apps/gpt3-play
    基盤モデルの概念図 基盤モデルの代表例:GPT-3

    View Slide

  4. 【疑問】ただの「でかい学習済みモデル」じゃないの?
    技術上はその通り。しかし影響力など(要確認)を考慮して命名
    4
    自己教師あり学習
    マルチタスク学習
    マルチモーダル
    学習済みモデル
    基盤モデル
    (foundation model)
    多くの概念を含んだ革新性を示すために「基盤モデル (foundation model) 」という語を導入

    View Slide

  5. 基盤モデルの重要な概念
    「創発」と「均質化」
    5
    創発 (Emergence) 均質化 (Homogenization)
    明示的にシステムが示されることな
    く、データから暗黙的に(モデルが自
    発的に)構築されること
    共通のシステム構築の方法が幅広く
    用いられていること
    学習中に提示されていないことができる
    GPT-3 の zero-shot
    言語
    画像
    点群
    動画
    分子
    Transformer
    モデルで処理可能
    Brown, et al., Language Models are Few-Shot Learners. 2020

    View Slide

  6. 創発と均質化が機械学習の歴史の中で進んでいく
    機械学習が発展して基盤モデルを可能にする「創発」と「均質化」
    レベルにまで到達
    6
    Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021

    View Slide

  7. ソフト・ハード両面の進化で大規模モデルが現実に
    基盤モデルを実現可能にした3つの要素
    7
    1. ハードウェア能力の向上
    4年で計算量が10倍になるほど性能が向上した
    2. トランスフォーマモデルの発明
    多くのデータに使える汎用的なアーキテクチャ
    3. 大規模データの利活用
    自己教師あり学習などアノテーションが不要な学習方法が登場

    View Slide

  8. 4年でGPUのスループットは10倍になった。
    ①ハードウェア能力の向上
    8
    • モデルは2年で数千倍のサ
    イズに大規模化
    • ハードウェアもそれに対応
    できるように進化
    Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021

    View Slide

  9. 学習データの規模が大きくなるほど、性能が良くなる傾向にある
    ②大規模データの利活用
    9
    • 深層学習モデルは学習デ
    ータサイズが大きくなるほ
    ど性能が良くなる
    • しかし、アノテーション付き
    データを大量に得ることは
    コスト的に難しい
    Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers
    for Image Recognition at Scale . ICLR 2021

    View Slide

  10. 2つの利用戦略で学習データを増やす
    大規模データの利用戦略
    10
    マルチタスク学習
    アノテーションを
    使わない学習
    Li et al., Towards a unified foundation model:
    Jointly pre-training transformers on unpaired images and text.
    2021
    He et al., Masked Autoencoders Are Scalable Vision Learners. 2021

    View Slide

  11. 使用するデータセットの数を多くすることで、学習データを増やす
    マルチタスク学習
    11
    Li et al., Towards a unified foundation model:
    Jointly pre-training transformers on unpaired images and text. 2021
    • 学習するタスクを増やす
    ことで、学習データ量を
    増やす戦略
    • 右図では画像タスクと言
    語タスク両方をこなして
    いる

    View Slide

  12. データを集めるだけで学習データにできる
    アノテーションを使わない学習
    12
    • アノテーションが不要なら、「データを
    集めるだけ」で学習データを作ることが
    できる
    • 代表的なものは言語モデル
    • 次にくる単語を予測することで学習するタスク
    • GPT-3は言語モデルで大規模データを学習させている
    (上)自己回帰型言語モデルの定義式
    (下)RNNを用いた自己回帰型言語モデル

    View Slide

  13. 画像だけで学習できる「自己教師あり学習」が近年急速に発展
    コンピュータービジョンにおける「アノテーションが不要な」学習
    13
    • 画像の構造を効果的に学習でき
    るアノテーションなしの学習手法
    が近年急速に発展
    • MAE では画像にマスクをかけて、
    マスク部分を復元するような学習
    を行う
    • 言語系と同様に、アノテーションを
    不要とする大量データ活用の基
    盤が整った He et al., Masked Autoencoders Are Scalable Vision Learners. 2021

    View Slide

  14. あらゆる種類のデータで活躍するモデル
    ③トランスフォーマモデルの発明
    14
    • 自己注意機構 (self-attention) で学習
    するモデル
    • 2017年に登場して以降、自然言語分野
    で活躍。2020年末以来はコンピューター
    ビジョン分野に進出。
    • 言語、動画、画像、点群、分子などの
    データで成果を出している
    Vaswani et al., Attention is All You Need. 2017

    View Slide

  15. 自己注意機構の特徴
    自己注意は比較的低い帰納バイアスをもち、
    多様なデータを扱いやすい
    15

    View Slide

  16. 大規模データで活躍するトランスフォーマー
    低い帰納バイアスが大規模データで性能を発揮する
    要因に
    16
    Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers
    for Image Recognition at Scale . ICLR 2021
    データが中規模しかない領域
    では、 BiT(CNNベースのモデ
    ル、強い帰納 バイアスをもつ)
    の方が強い
    データが大規模にある領域で
    は、ViT (弱い帰納バイアスをも
    つ) の方が強い

    View Slide

  17. 大量の言語データで学習し、ゼロショットで多様なタスクに取り組める
    基盤モデル : GPT-3
    17
    • 「言葉で」タスクを明示す
    ることにより、言語モデル
    の枠組みで推論が可能
    • 微調整 (fine-tune) をす
    ることなしにさまざまなタ
    スクへ取り組める
    • 「創発」により学習中で
    明示されていないタスクで
    活用可能
    Brown, et al., Language Models are Few-Shot Learners. 2020

    View Slide

  18. 多くのアプリケーションで利用されている
    GPT-3の影響力
    18
    • 発表から1年経過時点 (2021年5
    月) で300ほどのアプリケーショ
    ンで利用されている
    • 産業、教育、ゲームなど用途は
    さまざま
    https://openai.com/blog/gpt-3-apps/
    顧客理解に利用しているViable社

    View Slide

  19. フローレンスを解説する
    Computer Vision 系の 基盤モデル
    19
    「時間」「多種データ出力」「空間」の3要素の拡張に対応できる
    Florence (Yuan el al., 2021)

    View Slide

  20. データセットに由来する公平性や偏見の問題がある
    基盤モデルの問題点
    20
    Brown, et al., Language Models are Few-Shot Learners. 2020

    View Slide

  21. 法律上の問題
    21
    • インターネットで収集したデータの問題点
    • 学習データセットの著作権・肖像権周辺や、それを使って学習したモデルはどのように扱え
    ばよいのかが定まっていない
    • 米国では、サーバーに「許可なく」アクセスした場合は違法。しかし、「許可」の解釈の仕方に
    よる
    • 出力値の責任問題所在
    • 基盤モデルを微調整したモデルで出力をし、その出力が致命的な間違いを犯した場合、自動
    運転や医療診断では大きなきな損害がでる
    • 基盤モデルの提供者、微調整した組織、どちらに責任があるのかが定まっていない

    View Slide

  22. コンピュータービジョン
    と基盤モデル
    の個人的見解
    22

    View Slide

  23. CVデータ「だけ」で
    基盤モデルに成り得るのか?
    23

    View Slide

  24. 【疑問】
    CVタスクだけで、「アプリケーション」になるのか?
    24
    l Florence のように、さまざ
    まな CV タスクに対応でき
    るモデルが登場している
    l しかし、 CV タスクだけで
    「ある目的を達成するため
    のアプリケーション」にまで
    到達できるのか?
    Bommasani et al., On the Opportunities
    and Risks of Foundation Models. 2021
    基盤モデルの概念図

    View Slide

  25. 実務的なソフトを構築するという観点でみると?
    CVだけで完結する実務タスクはそこまで多くない
    25
    物体検知・意味的領域分割
    骨格検知
    言語系タスク
    (単体で完結するタスクがある)
    翻訳
    コードを書く
    Q&A
    CV系タスク
    (モジュール要素が強い)
    人と物体との衝突を避
    けるアルゴリズム
    骨格情報から歩行姿
    勢の正常/異常を判断
    https://www.analyticssteps.com/blogs/introduction-yolov4
    https://www.researchgate.net/figure/Sample-keypoint-detection-result-of-
    an-image-from-subject-F-during-toe-tapping-task-Note_fig4_339641684
    バスケがしたいです → I Want To Play Basketball
    【Q】 大学院生は新制度の支援対象になりますか
    【A】 大学院生は対象になり…
    【Task】 python で◯◯をスクレイピングしたい
    【Code】 import bs4 ….

    View Slide

  26. タスクの種類と創発
    タスクが固定だと「創発」が現れにくい?
    26
    GPT-3 の創発 Florence
    学習中に提示されていないことができ
    る GPT-3 の zero-shot
    強力な学習済みモデルで多くをこなせるが、
    できることは固定されている
    Yuan el al., Florence: A new foundation model for computer vision. 2021
    Brown, et al., Language Models are Few-Shot Learners. 2020

    View Slide

  27. CV系基盤モデルは「ナシ」なのか?
    言語処理系と組み合わせることで、さらに強力になる
    27
    • 右図はテキスト条件付きの
    拡散生成モデル
    • テキストでタスクを指定す
    ることで、多種多様なタスク
    指定が可能になる
    • 「創発」により学習データに
    ない非現実的な概念でも
    生成可能になる
    Saharia et al., Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022

    View Slide

  28. 基盤モデルのまとめ
    28
    • 基盤モデルは色々なタスクに利用できる大規模なモデル
    • トランスフォーマーの発明、ハードウェアの進化、大規模データ学習
    戦略の発展の3要素で実現できた
    • 法律上の問題や、データセットに由来する公平性の問題が課題
    • CV だけでなく言語を組み合わせることで様々な動画像タスクに応用
    が可能になる?

    View Slide