Slide 1

Slide 1 text

CCC WINTER 2022 基盤モデル 藤井 亮宏

Slide 2

Slide 2 text

Foundation Model 基盤モデル

Slide 3

Slide 3 text

基盤モデルとは? 「大規模データセットで学習した巨大なモデルで、あらゆるタスクや アプリケーションに対応できる」というモデル 3 Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021 https://gpt3demo.com/apps/gpt3-play 基盤モデルの概念図 基盤モデルの代表例:GPT-3

Slide 4

Slide 4 text

【疑問】ただの「でかい学習済みモデル」じゃないの? 技術上はその通り。しかし影響力など(要確認)を考慮して命名 4 自己教師あり学習 マルチタスク学習 マルチモーダル 学習済みモデル 基盤モデル (foundation model) 多くの概念を含んだ革新性を示すために「基盤モデル (foundation model) 」という語を導入

Slide 5

Slide 5 text

基盤モデルの重要な概念 「創発」と「均質化」 5 創発 (Emergence) 均質化 (Homogenization) 明示的にシステムが示されることな く、データから暗黙的に(モデルが自 発的に)構築されること 共通のシステム構築の方法が幅広く 用いられていること 学習中に提示されていないことができる GPT-3 の zero-shot 言語 画像 点群 動画 分子 Transformer モデルで処理可能 Brown, et al., Language Models are Few-Shot Learners. 2020

Slide 6

Slide 6 text

創発と均質化が機械学習の歴史の中で進んでいく 機械学習が発展して基盤モデルを可能にする「創発」と「均質化」 レベルにまで到達 6 Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021

Slide 7

Slide 7 text

ソフト・ハード両面の進化で大規模モデルが現実に 基盤モデルを実現可能にした3つの要素 7 1. ハードウェア能力の向上 4年で計算量が10倍になるほど性能が向上した 2. トランスフォーマモデルの発明 多くのデータに使える汎用的なアーキテクチャ 3. 大規模データの利活用 自己教師あり学習などアノテーションが不要な学習方法が登場

Slide 8

Slide 8 text

4年でGPUのスループットは10倍になった。 ①ハードウェア能力の向上 8 • モデルは2年で数千倍のサ イズに大規模化 • ハードウェアもそれに対応 できるように進化 Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021

Slide 9

Slide 9 text

学習データの規模が大きくなるほど、性能が良くなる傾向にある ②大規模データの利活用 9 • 深層学習モデルは学習デ ータサイズが大きくなるほ ど性能が良くなる • しかし、アノテーション付き データを大量に得ることは コスト的に難しい Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale . ICLR 2021

Slide 10

Slide 10 text

2つの利用戦略で学習データを増やす 大規模データの利用戦略 10 マルチタスク学習 アノテーションを 使わない学習 Li et al., Towards a unified foundation model: Jointly pre-training transformers on unpaired images and text. 2021 He et al., Masked Autoencoders Are Scalable Vision Learners. 2021

Slide 11

Slide 11 text

使用するデータセットの数を多くすることで、学習データを増やす マルチタスク学習 11 Li et al., Towards a unified foundation model: Jointly pre-training transformers on unpaired images and text. 2021 • 学習するタスクを増やす ことで、学習データ量を 増やす戦略 • 右図では画像タスクと言 語タスク両方をこなして いる

Slide 12

Slide 12 text

データを集めるだけで学習データにできる アノテーションを使わない学習 12 • アノテーションが不要なら、「データを 集めるだけ」で学習データを作ることが できる • 代表的なものは言語モデル • 次にくる単語を予測することで学習するタスク • GPT-3は言語モデルで大規模データを学習させている (上)自己回帰型言語モデルの定義式 (下)RNNを用いた自己回帰型言語モデル

Slide 13

Slide 13 text

画像だけで学習できる「自己教師あり学習」が近年急速に発展 コンピュータービジョンにおける「アノテーションが不要な」学習 13 • 画像の構造を効果的に学習でき るアノテーションなしの学習手法 が近年急速に発展 • MAE では画像にマスクをかけて、 マスク部分を復元するような学習 を行う • 言語系と同様に、アノテーションを 不要とする大量データ活用の基 盤が整った He et al., Masked Autoencoders Are Scalable Vision Learners. 2021

Slide 14

Slide 14 text

あらゆる種類のデータで活躍するモデル ③トランスフォーマモデルの発明 14 • 自己注意機構 (self-attention) で学習 するモデル • 2017年に登場して以降、自然言語分野 で活躍。2020年末以来はコンピューター ビジョン分野に進出。 • 言語、動画、画像、点群、分子などの データで成果を出している Vaswani et al., Attention is All You Need. 2017

Slide 15

Slide 15 text

自己注意機構の特徴 自己注意は比較的低い帰納バイアスをもち、 多様なデータを扱いやすい 15

Slide 16

Slide 16 text

大規模データで活躍するトランスフォーマー 低い帰納バイアスが大規模データで性能を発揮する 要因に 16 Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale . ICLR 2021 データが中規模しかない領域 では、 BiT(CNNベースのモデ ル、強い帰納 バイアスをもつ) の方が強い データが大規模にある領域で は、ViT (弱い帰納バイアスをも つ) の方が強い

Slide 17

Slide 17 text

大量の言語データで学習し、ゼロショットで多様なタスクに取り組める 基盤モデル : GPT-3 17 • 「言葉で」タスクを明示す ることにより、言語モデル の枠組みで推論が可能 • 微調整 (fine-tune) をす ることなしにさまざまなタ スクへ取り組める • 「創発」により学習中で 明示されていないタスクで 活用可能 Brown, et al., Language Models are Few-Shot Learners. 2020

Slide 18

Slide 18 text

多くのアプリケーションで利用されている GPT-3の影響力 18 • 発表から1年経過時点 (2021年5 月) で300ほどのアプリケーショ ンで利用されている • 産業、教育、ゲームなど用途は さまざま https://openai.com/blog/gpt-3-apps/ 顧客理解に利用しているViable社

Slide 19

Slide 19 text

フローレンスを解説する Computer Vision 系の 基盤モデル 19 「時間」「多種データ出力」「空間」の3要素の拡張に対応できる Florence (Yuan el al., 2021)

Slide 20

Slide 20 text

データセットに由来する公平性や偏見の問題がある 基盤モデルの問題点 20 Brown, et al., Language Models are Few-Shot Learners. 2020

Slide 21

Slide 21 text

法律上の問題 21 • インターネットで収集したデータの問題点 • 学習データセットの著作権・肖像権周辺や、それを使って学習したモデルはどのように扱え ばよいのかが定まっていない • 米国では、サーバーに「許可なく」アクセスした場合は違法。しかし、「許可」の解釈の仕方に よる • 出力値の責任問題所在 • 基盤モデルを微調整したモデルで出力をし、その出力が致命的な間違いを犯した場合、自動 運転や医療診断では大きなきな損害がでる • 基盤モデルの提供者、微調整した組織、どちらに責任があるのかが定まっていない

Slide 22

Slide 22 text

コンピュータービジョン と基盤モデル の個人的見解 22

Slide 23

Slide 23 text

CVデータ「だけ」で 基盤モデルに成り得るのか? 23

Slide 24

Slide 24 text

【疑問】 CVタスクだけで、「アプリケーション」になるのか? 24 l Florence のように、さまざ まな CV タスクに対応でき るモデルが登場している l しかし、 CV タスクだけで 「ある目的を達成するため のアプリケーション」にまで 到達できるのか? Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021 基盤モデルの概念図

Slide 25

Slide 25 text

実務的なソフトを構築するという観点でみると? CVだけで完結する実務タスクはそこまで多くない 25 物体検知・意味的領域分割 骨格検知 言語系タスク (単体で完結するタスクがある) 翻訳 コードを書く Q&A CV系タスク (モジュール要素が強い) 人と物体との衝突を避 けるアルゴリズム 骨格情報から歩行姿 勢の正常/異常を判断 https://www.analyticssteps.com/blogs/introduction-yolov4 https://www.researchgate.net/figure/Sample-keypoint-detection-result-of- an-image-from-subject-F-during-toe-tapping-task-Note_fig4_339641684 バスケがしたいです → I Want To Play Basketball 【Q】 大学院生は新制度の支援対象になりますか 【A】 大学院生は対象になり… 【Task】 python で◯◯をスクレイピングしたい 【Code】 import bs4 ….

Slide 26

Slide 26 text

タスクの種類と創発 タスクが固定だと「創発」が現れにくい? 26 GPT-3 の創発 Florence 学習中に提示されていないことができ る GPT-3 の zero-shot 強力な学習済みモデルで多くをこなせるが、 できることは固定されている Yuan el al., Florence: A new foundation model for computer vision. 2021 Brown, et al., Language Models are Few-Shot Learners. 2020

Slide 27

Slide 27 text

CV系基盤モデルは「ナシ」なのか? 言語処理系と組み合わせることで、さらに強力になる 27 • 右図はテキスト条件付きの 拡散生成モデル • テキストでタスクを指定す ることで、多種多様なタスク 指定が可能になる • 「創発」により学習データに ない非現実的な概念でも 生成可能になる Saharia et al., Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022

Slide 28

Slide 28 text

基盤モデルのまとめ 28 • 基盤モデルは色々なタスクに利用できる大規模なモデル • トランスフォーマーの発明、ハードウェアの進化、大規模データ学習 戦略の発展の3要素で実現できた • 法律上の問題や、データセットに由来する公平性の問題が課題 • CV だけでなく言語を組み合わせることで様々な動画像タスクに応用 が可能になる?