Slide 7
Slide 7 text
基盤モデル(大規模言語モデル)
トランスフォーマーの特徴・・・モデルを大規模化するほど精度が向上する
以前のモデルでは「モデルを大きくすると性能が頭打ちになる」「過学習が起きて未知のデータに対す
る性能(汎化性能)が低下する」という問題があった。トランスフォーマーはその逆で、モデルが大きくな
るほどに精度が向上する特徴が見られた。「Attention is All You Need.」の発表以降、モデルはど
んどん大規模に。
基盤モデル名 開発組織 発表年 モデル規模 補足
BERT Google 2018 3.4億 トランスフォーマー、MLMを用いたLLM初期の代表的モデル
GPT-2 OpenAI 2019 15億 自己回帰型トランスフォーマー
GPT-3 OpenAI 2020 1750億 GPTを大幅に大規模化して性能向上、Few Shot学習を実現
T5 Google 2020 110億 テキストベースの多タスクに対応
HyperCLOVA LINE & NAVER 2021 820億 日本語LLM、最初のバーションは2020年発表
Chinchilla DeepMind 2022 700億 モデル規模拡大ではなく効率重視
PaLM Google 2022 5400億 Google作成
GLM 清華大学 2022 1300億 英語と中国語
GPT-4 OpenAI 2023 非公開 ChatGPTの最新版に搭載された
PaLM2 Google 2023 非公開 対話型生成AIであるBardをはじめ25のGoogle製品に搭載
LLaMA Meta 2023 650億 研究向けに公開
StableLM Stability AI 2023 70億 オープンソースLLM
DALL-E OpenAI 2021 120億 言語と画像を関係付けるモデルCLIPをベースとしている
DALL-E2 OpenAI 2022 35億+15億 拡散モデルを利用
Imagen Google 2022 76億 拡散モデルを利用
Parti Google 2022 200億 自己回帰モデルを利用
代表モデルとパラメータ数
・BERT(2018) 3.4億
・GPT3(2020) 1,750億
・Google PaLM(2022) 5,400億
・GPT4(2023) 5,000億~1兆?
人工知能研究の新潮流2(CRDS)より