al., The Stability-Efficiency Dilemma: Investigating Sequence Length Warmup for Training GPT Models. NeurIPS 2022. ◦ 1 epoch目では、データセットを3分割し、系列長を 256 -> 512 -> 1024 と段階的に挙げ ていった。2 epoch 目以降では1024. • Mixed Precision (fp32 & bf16) の利用。 ◦ (ざっくり言うと)forward-, backward-passは16 bitで計算し、パラメータの更新は32 bit で行うことで、精度を落とさずに高速化・メモリの削減を行える。 ◦ 16 bitの数値形式として、fp16よりもダイナミックレンジの広いbf16を利用。 ▪ bf16の方が学習が安定する。 • https://huggingface.co/blog/bloom-megatron-deepspeed#bf16optimizer