基盤モデルとは? 「大規模データセットで学習した巨大なモデルで、あらゆるタスクや アプリケーションに対応できる」というモデル 3 Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021 https://gpt3demo.com/apps/gpt3-play 基盤モデルの概念図 基盤モデルの代表例:GPT-3
4年でGPUのスループットは10倍になった。 ①ハードウェア能力の向上 8 • モデルは2年で数千倍のサ イズに大規模化 • ハードウェアもそれに対応 できるように進化 Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021
2つの利用戦略で学習データを増やす 大規模データの利用戦略 10 マルチタスク学習 アノテーションを 使わない学習 Li et al., Towards a unified foundation model: Jointly pre-training transformers on unpaired images and text. 2021 He et al., Masked Autoencoders Are Scalable Vision Learners. 2021
使用するデータセットの数を多くすることで、学習データを増やす マルチタスク学習 11 Li et al., Towards a unified foundation model: Jointly pre-training transformers on unpaired images and text. 2021 • 学習するタスクを増やす ことで、学習データ量を 増やす戦略 • 右図では画像タスクと言 語タスク両方をこなして いる
【疑問】 CVタスクだけで、「アプリケーション」になるのか? 24 l Florence のように、さまざ まな CV タスクに対応でき るモデルが登場している l しかし、 CV タスクだけで 「ある目的を達成するため のアプリケーション」にまで 到達できるのか? Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021 基盤モデルの概念図
タスクの種類と創発 タスクが固定だと「創発」が現れにくい? 26 GPT-3 の創発 Florence 学習中に提示されていないことができ る GPT-3 の zero-shot 強力な学習済みモデルで多くをこなせるが、 できることは固定されている Yuan el al., Florence: A new foundation model for computer vision. 2021 Brown, et al., Language Models are Few-Shot Learners. 2020