最先端NLP勉強会2024

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and
Simplicity Bias in MLMs Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra ICLR 2024 spotlight 2024-08-25 最先端NLP勉強会2024 発表者：大羽未悠 (NAIST) 1 *スライド中の図や表は断りのない限り本文からの引用

概要 • 言語モデルの学習時の知識の発現などによる非連続な過程を調査 • モデルの内部的な文法構造の形成と外部的な文法能力の発現 • 事前学習にて、唐突に内部的な文法構造を形成し、損失が急激に減少するタイミングがあり、その後外部的な文法能力を促すと解釈可能 •
内部的な文法構造を形成する機構は言語能力の獲得に影響を与えていることを観察 • 学習時のごく初期だけに内部的な文法構造を形成する機構を抑制することでモデルの性質が向上する 2

知識の発現における非連続的な過程の調査 • 知識の発現はスケーリング則に従わず唐突な変化を見せることもある • このような非連続的な過程：相転移(phase transition)(他にブレイクスルー, 創発, ブレイクetc. ) •
物理学的な本来の意味でのphase transitionのような厳密な使い方はされていない • Wei et al 2022らの創発の定義とも異なる (An ability is emergent if it is not present in smaller models but is present in larger models.) • 本研究：モデルサイズは一貫しておりステップ数を動かしている • 相転移がどのように発現するか、特にその学習過程における分析は限られている • 学習済みモデルの挙動を分析するのではなく、学習時の解釈可能な性質の役割を操作して分析する必要あり • 今回注目する解釈可能な性質：Syntactic Attention Structure 背景 3

Syntactic Attention Structure (SAS) とは • モデルが特定の構文的な依存関係に注目したアテンションヘッドを形成する傾向 • e.g. nestsを予測するときはbuilds,
uglyに強く依存する • あるヘッドはuglyに依存しあるヘッドはbuildsに注目するかも • MLMの学習時に明示的な帰納バイアスなしに自然に発生することが知られている • 研究方針：SASの発現を制御→MLMの内部構造の特性と外的な能力の関係を観察 SAS 4

SASの定量化 | unlabeled attatchment score (UAS) • 言語モデルが構文解析の結果と同じように単語にアテンションを当てられているか • モデルが各事例の各単語の親を予測
• ある単語とattentionの重みが最大の単語 • 構文解析の結果と比較して予測が成功した割合を計算 • Silver label: • Wall Street Journal portion of the Penn Treebankから1kドキュメント • Stanford Dependenciesで構文解析した結果 SAS bird builds root nests builds 親 nests My bird builds … ugly 5

相転移の同定 • 相転移：訓練時の短い間におけるモデルの振る舞いの急な変化相転移の定義 t = 50K, ∆ = 5Kの場合、45Kと55Kの間のチェックポイント
6

統語獲得の段階 • 問い：MLMの内部の文法構造の特性と外的な文法能力の関係はどう解釈可能か • MLM: bert-base (本研究では一貫して同じサイズ) • 内部構造：UAS (SASの定量化)
• 外的能力：BLiMPでの性能 • 文法的に正しい文：The cats annoy Tim. • 文法的に正しくない文：The cat annoy Tim. • 上記の文のpseudo likelihoodを計算し、モデルが正しい文を選択できた割合 • ステップ数と損失の関係 • 損失が20K-30Kステップあたりで急速に下がる • これを2つの異なる相転移の組み合わせとして解釈可能モデルの内的文法構造・外的文法能力の解釈可能性 7

統語獲得の段階 | 2つの異なる相転移 • 構造の発現 (△) • ：SASが形成される段階 • UASが損失やGLUEスコアの向上と連動
モデルの内的文法構造・外的文法能力の解釈可能性 * 図は異なる3つのシードでの結果 BERTだけでなくMultiBERTでも同じような軌跡になる 8

統語獲得の段階 | 2つの異なる相転移 • 能力の発現 (◦) • ：モデルの外的な文法能力 (BLiMP Acc.)
の急激な向上フェーズ • UASは平になり、損失はゆるやかになるモデルの内的文法構造・外的文法能力の解釈可能性 9

統語獲得の段階 | 2つの異なる相転移 • 言語現象ごとの観察 • 多くは能力の発現時点からで急激に向上している構文の問題として単純そうなもの (D-N agrやIrregularなど)
はもっと前から向上していそうモデルの内的文法構造・外的文法能力の解釈可能性 10

統語獲得の段階 | 2つの異なる相転移 • 構造の発現 (△) • ：SASが形成される段階 • UASが損失やGLUEスコアの向上と連動
• 能力の発現 (◦) • ：モデルの外的な文法能力 (BLiMP Acc.) の急激な向上フェーズ • UASは平になり、損失はゆるやかになる • 内部の文法的な表現 (SAS) が外的な文法的な振る舞い (BLiMP) を促進することを観察モデルの内的文法構造・外的文法能力の解釈可能性 11

複雑性の相転移 • 問い：各発現の前後にて複雑性は変異するのか？ • 表現学習にて重みの複雑性の減少が重要かも (Achille et al., 2018) •
複雑性の評価：固有次元推定アルゴリズム(TwoNN) • 固有次元：表現に必要な最小限の変数 • 構造の発現の前：複雑性の急激な減少 • 単純化バイアス：学習初期段階でSASのような単純な関数を好む傾向 (Arpit et al., 2017) • 構造の発現と能力の発現の間：複雑性の急増 • 記憶段階：急速に情報を獲得する段階と解釈できそう • 構造の発現と能力の発現は複雑性の相転移としても解釈可能複雑性と圧縮 12

SASの制御 • 問い：SASは言語現象を操作するのに重要か？ • 方法：SASを制御して損失とUASとBLiMPを観察 • SASの制御方法： • アテンションの分布の構造を統語スコアで操作 •
依存関係のある単語間のアテンションの重みを促進・抑制する正則化項を追加 SASの制御統語スコア: ある単語に対する依存関係のうちアテンションスコアが最大の単語 (統語的なつながりがあると思われる) 13 SASを促進する：負 SASを抑制する：正

SASの制御による影響 • BERTSAS+ SASを促進 • BLiMP性能：早く向上 • (長期的には悪影響だが) • BERTSAS-
: SASを抑制 • BLiMP性能：早期の向上はなく後段にも悪影響 • SASを抑制して内部の文法構造の獲得段階 (構造の発現)を妨害することでそれに続く外部の文法能力(能力の発現)も妨げる • SASは文法能力の増減に影響するがSASを促進しても抑制しても長期的には悪影響 SASの制御 14

SASと競合する代替戦略 • 6kステップ周辺に早期の損失の減少が見られる (; 代替戦略の発現) • 構造の発現の前(SASが形成される段階前)に改善をもたらすなんらかの戦略がありそう • 仮説：SASは効率的な文法表現の獲得に重要だが、代替戦略の発現と競合しているのでは？
SASの制御 15

初期段階のSASの正則化 • 問い：学習初期に自然なSASベースの学習戦略を避けて代替戦略を優先することはモデルの学習に利点があるか？ • 気持ち：最初から構文的な依存関係を学ぶのではなく表層的な学習をしてからSASを得ることで効率的な学習ができるのでは？ • 方法：正則化器を初期のみ使用したモデルと既存モデルを比較 •
3kステップまでλ = 0.001→その後λ = 0 (正則項なし) • 結果：多段階モデルのスコアは全体的にわずかに上回った (わずかすぎる？抑制をやめて BERTbaseに近づいただけ感？) SASの制御 16

SASの抑制の持続 • 問い：SASの抑制は具体的にいつぐらいまで持続するといいのか？ • 方法： • SASの抑制をやめるステップ数ごとに相転移が発生するステップ数・その際のUASのスパイクの強さをプロット • 結果：
• SASを短時間 (0.5*10^4ぐらい？) 抑制することで構造の発現が加速される • 長く抑制しすぎると今までのモデルで見られたUASの急激なスパイクが打たれなくなる • 単純化バイアスは強すぎると悪影響という知見と構文的なな文脈からも一致(Shah et al., 2020) SASの制御 17

カリキュラムラーニングがうまくいかない原因？ • 本研究はカリキュラムラーニングと似ていそう • カリキュラムラーニング：どんなデータを与えるか (特に大規模なモデルでうまくいかないことが多いらしい) • 本研究：データの何を見るか •
著者の考察： • 単純なデータは、単純な戦略を促進する可能性が高い • 初期のデータ分布を均一化するようなカリキュラムは初期の性能を向上させる一方で、後の性能を損なう可能性があるのではディスカッション 18

まとめ • 言語モデルの学習時の知識の発現などによる非連続な過程を調査 • モデルの内部的な文法構造の形成と外部的な文法能力の発現 • 知見： • 事前学習にて、唐突に内部的な文法構造を形成し、損失が急激に減少するタイミングがあり、その後外部的な文法能力(BLiMP)を促すと解釈可能
• SASは言語能力の獲得に影響を与えていることを観察 • 学習時のごく初期だけにSASを形成する機構を抑制することでモデルの性質が向上 • おまけ： • Naomi Saphra (本研究の最終著者でモデルの学習過程の解明に取り組んでいる研究者) のブログ https://nsaphra.net/post/prinia /：本研究の紹介をしつつ、なぜ言語モデルの学習過程を調査する必要があるかについて哲学的な文脈から記述されている 19

最先端NLP勉強会2024

最先端NLP勉強会2024

Miyu Oba

More Decks by Miyu Oba

Featured

Transcript

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and

知識の発現における非連続的な過程の調査 • 知識の発現はスケーリング則に従わず唐突な変化を見せることもある • このような非連続的な過程：相転移(phase transition)(他にブレイクスルー, 創発, ブレイクetc. ) •

Syntactic Attention Structure (SAS) とは • モデルが特定の構文的な依存関係に注目したアテンションヘッドを形成する傾向 • e.g. nestsを予測するときはbuilds,

SASの定量化 | unlabeled attatchment score (UAS) • 言語モデルが構文解析の結果と同じように単語にアテンションを当てられているか • モデルが各事例の各単語の親を予測

相転移の同定 • 相転移：訓練時の短い間におけるモデルの振る舞いの急な変化相転移の定義 t = 50K, ∆ = 5Kの場合、45Kと55Kの間のチェックポイント

統語獲得の段階 • 問い：MLMの内部の文法構造の特性と外的な文法能力の関係はどう解釈可能か • MLM: bert-base (本研究では一貫して同じサイズ) • 内部構造：UAS (SASの定量化)

統語獲得の段階 | 2つの異なる相転移 • 構造の発現 (△) • ：SASが形成される段階 • UASが損失やGLUEスコアの向上と連動

統語獲得の段階 | 2つの異なる相転移 • 能力の発現 (◦) • ：モデルの外的な文法能力 (BLiMP Acc.)

統語獲得の段階 | 2つの異なる相転移 • 言語現象ごとの観察 • 多くは能力の発現時点からで急激に向上している構文の問題として単純そうなもの (D-N agrやIrregularなど)

統語獲得の段階 | 2つの異なる相転移 • 構造の発現 (△) • ：SASが形成される段階 • UASが損失やGLUEスコアの向上と連動

複雑性の相転移 • 問い：各発現の前後にて複雑性は変異するのか？ • 表現学習にて重みの複雑性の減少が重要かも (Achille et al., 2018) •

SASの制御 • 問い：SASは言語現象を操作するのに重要か？ • 方法：SASを制御して損失とUASとBLiMPを観察 • SASの制御方法： • アテンションの分布の構造を統語スコアで操作 •

SASの制御による影響 • BERTSAS+ SASを促進 • BLiMP性能：早く向上 • (長期的には悪影響だが) • BERTSAS-

SASの抑制の持続 • 問い：SASの抑制は具体的にいつぐらいまで持続するといいのか？ • 方法： • SASの抑制をやめるステップ数ごとに相転移が発生するステップ数・その際のUASのスパイクの強さをプロット • 結果：