Slide 10
Slide 10 text
10
Neural scaling laws
● GPT-3 モデル(2020 年):1,750 億パラメーター
● GLaM モデル(2021 年):1 兆 2,000 億パラメーター
○ https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-with.html
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts | arxiv | Cornell University
https://arxiv.org/abs/2112.06905
GPT-3 に対する
GLaM の性能向上