Stopping 教師付き下流タスクへの事前訓練⽂脈語埋込みモデルの微調整は、⾃然⾔語処理にお いて⼀般的になった。しかしながら、このプロセスは、しばしば脆く、同じハイパー パラメータ値であっても、異なるランダムシードは、実質的に異なる結果をもたらし 得る。この現象をより良く理解するために、筆者らはGLUEベンチマークからの4つ のデータセットを⽤いて実験し、ランダムシードのみを変化させながら、各々につい て数百回BERTを微調整した。著者らは、以前に報告された結果と⽐較して、かなり の性能増加を発⾒し、最良に発⾒されたモデルの性能が、微調整試⾏の数の関数とし てどのように変化するかを定量化した。さらに、ランダムシードの選択により影響さ れる2つの因⼦、重み初期化と訓練データ順序を検討した。両⽅とも、標本外性能の 分散に⽐較的寄与し、いくつかの重み初期化が調査した全てのタスクで良好に動作す ることを⾒出した。⼩規模データセットでは、多くの微調整試⾏が訓練の途中で分岐 することを観察し、あまり有望でない訓練を早期に中⽌するための実践者のためのベ ストプラクティスを提供する。微調整中のトレーニング動態のさらなる分析を促進す るため、2,100試験のトレーニングおよび検証スコアを含むすべての実験データを公 開しています。