Slide 12
Slide 12 text
©2023 CyberAgent Inc. Distribution prohibited
学習の安定化に影響する要素について
○ LR, QK-LayerNorm, Z loss, warm up,
weight decay, width vs depth, μParam
参考になる論文
https://arxiv.org/abs/2309.14322
Context Length 初期値の設定
○ Context Lengthが長いほど不安定に
■ 参考
:https://arxiv.org/abs/2108.06084
○ 重みの初期値の設定によって不安定に
12