Slide 22
Slide 22 text
Stepsおよび最適化について
• Figure.1では,RoBERTa-100kのFLOPSがELECTRA-100kの約4倍になっています.これ
は誤りでは?と思う方のために補足説明しておきます.
• stepsは,モデルパラメータの更新回数(=mini batchの個数)を表しています.
• RoBERTaのbatch sizeは,ELECTRAの4倍です.このためFLOPSも約4倍になっています.
(ちょうど4倍にならないのは,GeneratorのFLOPSが加算されるため)
• 参考までに,各モデルの主な最適化設定を一覧にしておきます.
22
モデル batch size max steps. optimizer trainset
XLNet 2,048 500K Adam [Yang+, 2019]
RoBERTa 8,192 500K Adam [Liu+, 2019]
BERT 256 1,000K Adam [Devlin+, 2018]
BERT(ours)(※) 2,048 500K LAMB [Yang+, 2019]
ELECTRA 2,048 500K LAMB [Yang+, 2019]
※ 本論文Table.2