最先端NLP勉強会2024にて発表した論文"Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs" (Chen et al., ICLR2024 spotlight) の発表資料
物理学的な本来の意味でのphase transitionのような厳密な使い方はされていない • Wei et al 2022らの創発の定義とも異なる (An ability is emergent if it is not present in smaller models but is present in larger models.) • 本研究:モデルサイズは一貫しておりステップ数を動かしている • 相転移がどのように発現するか、特にその学習過程における分析は限られている • 学習済みモデルの挙動を分析するのではなく、 学習時の解釈可能な性質の役割を操作して分析する必要あり • 今回注目する解釈可能な性質:Syntactic Attention Structure 背景 3