Transformer言語モデルを内部挙動から理解する (第52回 NLPコロキウム, 小林悟郎, 2024/02/07)

Transformer⾔語モデルを内部挙動から理解する⼩林悟郎 2024/02/06 第52回 NLPコロキウム坂⼝・乾・徳久研究室博⼠２年（東北⼤学⾃然⾔語処理研究グループ）

⼩林悟郎 (Goro Kobayashi) 2024/02/06 第52回 NLPコロキウム • 東北⼤学
坂⼝・乾・徳久研究室博⼠２年 • 研究: Transformer/⾔語モデルの成功を理解したい ×５年 • 学部４年: 注意機構 (Attention) の挙動を分析 (EMNLPʼ20) • 修⼠１年: 注意機構とその周囲モジュールをまとめて分析 (EMNLPʼ21) • 修⼠２年: さらにフィードフォワードネットも加えて分析 (ICLRʼ24) • 博⼠１年: ⾔語モデルの予測ヘッドを分析 (ACLʼ23 Findings) • 博⼠２年: LoRA パラメータを解釈したい (Ongoing) • 趣味: ゲームが好きです︕筋トレが好きですでした︕ • ３⽉の⾔語処理学会 (NLP2024) に参加します︕お話しましょう︕ • 来年４⽉〜の就職先を探して企業ブースを徘徊するつもりです︕︕︕︕︕︕︕ • YANS 運営委員として YANS懇に参加します @goro_koba 本⽇はこれらをかいつまんでご紹介

注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ
… 注意機構フィードフォワードネット層正規化層正規化第 # 層近年の⾃然⾔語処理の中⼼: Transformer⾔語モデル 2024/02/06 第52回 NLPコロキウム • Transformerネットワーク [Vaswani+ʼ17] • 周囲の情報 (⽂脈) を参照する構造として畳み込みや再帰構造の代わりに注意機構 (Attention) を導⼊周囲の表現を混ぜることで単語表現を更新例: “⾸都” が “⽇本” を参照して “⽇本の⾸都” っぽい表現に更新単語表現を個別に変換フィードフォワードネット: 2層 MLP 層正規化: 平均0・標準偏差1に正規化 & アフィン変換

近年の⾃然⾔語処理の中⼼: Transformer⾔語モデル 2024/02/06 • 単語⽳埋めを⼤量に解かせて学習 → BERT [Devlin+ʼ19], RoBERTa
[Liu+ʼ19] , … • ⽂章の続きを⼤量に予測させて学習 → GPT-2,3,4, … ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژͰ͢ɻ BERT GPTモデル [Radford+ʼ18;Brown+ʼ20;OpenAIʼ23] MNLI QNLI QQP RTE SST MRPC CoLA STS WNLI Avg Single-task single models on dev BERTLARGE 86.6/- 92.3 91.3 70.4 93.2 88.0 60.6 90.0 - - XLNetLARGE 89.8/- 93.9 91.8 83.8 95.6 89.2 63.6 91.8 - - RoBERTa 90.2/90.2 94.7 92.2 86.6 96.4 90.9 68.0 92.4 91.3 - Ensembles on test (from leaderboard as of July 25, 2019) ALICE 88.2/87.9 95.7 90.7 83.5 95.2 92.6 68.6 91.1 80.8 86.3 MT-DNN 87.9/87.4 96.0 89.9 86.3 96.5 92.7 68.4 91.1 89.0 87.6 XLNet 90.2/89.8 98.6 90.3 86.3 96.8 93.0 67.8 91.6 90.4 88.4 MNLI QNLI QQP RTE SST MRPC CoLA STS WNLI Avg Single-task single models on dev BERTLARGE 86.6/- 92.3 91.3 70.4 93.2 88.0 60.6 90.0 - - XLNetLARGE 89.8/- 93.9 91.8 83.8 95.6 89.2 63.6 91.8 - - RoBERTa 90.2/90.2 94.7 92.2 86.6 96.4 90.9 68.0 92.4 91.3 - Ensembles on test (from leaderboard as of July 25, 2019) ALICE 88.2/87.9 95.7 90.7 83.5 95.2 92.6 68.6 91.1 80.8 86.3 MT-DNN 87.9/87.4 96.0 89.9 86.3 96.5 92.7 68.4 91.1 89.0 87.6 XLNet 90.2/89.8 98.6 90.3 86.3 96.8 93.0 67.8 91.6 90.4 88.4 RoBERTa 90.8/90.2 98.9 90.2 88.2 96.7 92.3 67.8 92.2 89.0 88.5 Table 5: Results on GLUE. All results are based on a 24-layer architecture. BERTLARGE and XLNetLARGE results are from Devlin et al. (2019) and Yang et al. (2019), respectively. RoBERTa results on the development set are a median over ﬁve runs. RoBERTa results on the test set are ensembles of single-task models. For RTE, STS and MRPC we ﬁnetune starting from the MNLI model instead of the baseline pretrained model. Averages are obtained from the GLUE leaderboard. MNLI QNLI QQP RTE SST MRPC CoLA STS WNLI Avg Single-task single models on dev BERTLARGE 86.6/- 92.3 91.3 70.4 93.2 88.0 60.6 90.0 - - XLNetLARGE 89.8/- 93.9 91.8 83.8 95.6 89.2 63.6 91.8 - - RoBERTa 90.2/90.2 94.7 92.2 86.6 96.4 90.9 68.0 92.4 91.3 - Ensembles on test (from leaderboard as of July 25, 2019) ALICE 88.2/87.9 95.7 90.7 83.5 95.2 92.6 68.6 91.1 80.8 86.3 MT-DNN 87.9/87.4 96.0 89.9 86.3 96.5 92.7 68.4 91.1 89.0 87.6 XLNet 90.2/89.8 98.6 90.3 86.3 96.8 93.0 67.8 91.6 90.4 88.4 RoBERTa 90.8/90.2 98.9 90.2 88.2 96.7 92.3 67.8 92.2 89.0 88.5 [Liu+’19] Model Diversity ↑ Quality D1 D2 D MAUVE ↑ PPL ↓ small 1 19.4 0. 0 65.9 med. 1 14.6 0. 0 21.3 large 1 12.7 0. 0 13.6 xl 1 11.4 0. 0 12.1 Table 4: Evaluation results for generation and prediction from GPT-2 (top-p sampling) while controlling the bias bLN with . MMLU GSM-8K HellaSwag AI2 WinoGrande HumanEval DROP (F1) GPT-3.5 70.0 85.5 85.2 81.6 48.1 64.1 57.1 GPT-4 86.4 95.3 96.3 87.5 67.0 89.9 92.0 [OpenAI+’23] [OpenAI+’23] [Liu+’19] 幅広いタスクに応⽤可能 & ⾼性能

背景︓ Transformer⾔語モデルの内部挙動を理解したい • 更に改善するために内部挙動を分析して⼿がかりを得たい • 内部で⾔語はどう処理されている︖ • モデルを構成する各モジュールはどんな働きをしている︖ • しかし、近年のモデルは巨⼤かつ複雑
2024/02/06 第52回 NLPコロキウムごく⼀部分に注⽬した限定的な分析⼿法が主流 (=アテンション重み) モデルの⼤部分は無視されてしまう BERT GPTモデル 🔍

トークの概要︓ 分析スコープを拡張してモデルをより深く理解する • 分析スコープを拡張し、無視されてきた部分を分析に考慮 • 本⽇ご紹介する主要な知⾒︓ • 注意機構には「ゴミ箱機能」が学習される • 注意機構だけでなくフィードフォワードネットも「混ぜ合わせ」を変える
• ⼀部のモジュールは打ち消し合う 2024/02/06 第52回 NLPコロキウム BERT GPTモデル 🔍

既存⼿法: アテンション重み (Attention weights) 2024/02/06 第52回 NLPコロキウム

アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06
第52回 NLPコロキウム注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 Head 1 Head 2 Head # … %! %" %# %$ %% %′! %′" %′# %′$ %′%

第52回 NLPコロキウム注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 Head 1 Head 2 Head # … %! %" %# %$ %% %′! %′" %′# %′$ %′% 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝛼!,# = softmax 𝒒! 𝒌# ( 𝑑 Value ม׵ͨ͠पғͷ୯ޠදݱ 𝒗! Λ 𝛼!,# ͰॏΈ෇͚ͳ͕Β૯࿨

第52回 NLPコロキウム注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝛼!,# = softmax 𝒒! 𝒌# ( 𝑑 Value ม׵ͨ͠पғͷ୯ޠදݱ 𝒗! Λ 𝛼!,# ͰॏΈ෇͚ͳ͕Β૯࿨ Head 1 Head 2 Head # … %! %" %# %$ %% %′! %′" %′# %′$ %′% 💡「ある単語はどの単語に注⽬したか」を観察できそう 😕 それ以外の部分は分析対象外

アテンション重みの観察１︓依存関係 (=⾔語構造) と⼀致する • ⼀部の注意機構はアテンション重みが特定の依存関係とよく⼀致 2024/02/06 第52回 NLPコロキウム [Clark+’19]
Relation Head Accuracy Baseline All 7-6 34.5 26.3 (1) prep 7-4 66.7 61.8 (-1) pobj 9-6 76.3 34.6 (-2) det 8-11 94.3 51.7 (1) nn 4-10 70.4 70.2 (1) nsubj 8-2 58.5 45.5 (1) amod 4-10 75.6 68.3 (1) dobj 8-10 86.8 40.0 (-2) advmod 7-6 48.8 40.2 (1) aux 4-10 81.1 71.5 (1) poss 7-6 80.5 47.7 (1) auxpass 4-10 82.5 40.5 (1) ccomp 8-1 48.8 12.4 (-2) mark 8-2 50.7 14.5 (2) prt 6-7 99.1 91.4 (-1) Table 1: The best performing attentions heads of BERT on WSJ dependency parsing by dependency type. Numbers after baseline accuracies show the best offset found (e.g., (1) means the word to the right is predicted as the head). We show the 10 most common 4.3 Cor Having s tain aspe tention h task of co are usuall state-of-th worse at c Setup. W erence re (Pradhan anteceden time does most atte anteceden for select • Pick • Pick same • A si (GPT-2 でも依存関係との⼀致がベースライン超え [Vig&Belinkovʼ19]) BERT

アテンション重みの観察２︓共参照 (=意味的関係) と⼀致する • ⼀部の注意機構はアテンション重みが共参照とよく⼀致 2024/02/06 第52回 NLPコロキウム [Clark+’19]
Model All Pronoun Proper Nominal Nearest 27 29 29 19 Head-word match 52 47 67 40 Rule-based 69 70 77 60 Neural coref 83* – – – Head 5-4 65 64 73 58 *Only roughly comparable because on non-truncated docu- ments and with different mention detection. Table 2: Accuracies (%) for different mention types of systems selecting a correct antecedent given a corefer- ent mention in the CoNLL-2012 data. One of BERT’s ity of word i be p(i|j) / Where v deno notes concaten held ﬁxed in tr trices W and Wk,:(vi vj) p the particular a BERT

アテンション重みの観察３︓特殊トークンに強く注⽬する • ほとんどの注意機構が⽂頭または⽂末の特殊トークンにばかり注⽬する謎の傾向 2024/02/06 [Clark+’19] 第52回 NLPコロキウム全体の半分以上の重みが
⽂末トークンに集中︕︖ BERT [Clark+’19] 🤔

アテンション重みの観察３︓特殊トークンに強く注⽬する • ほとんどの注意機構が⽂頭または⽂末の特殊トークンにばかり注⽬する謎の傾向 2024/02/06 第52回 NLPコロキウム最近のLLM: ELYZA-japanese-Llama-2-7b-fast
ʢೖྗ “<s>_೔ຊͷट౎͸” ͷΈͰࢉग़ʣ ʊ ʊ ʊ ʊ 全体の90%以上の重みが⽂頭トークンに集中︕︖ 🤔

分析の拡張と結果 (オムニバス形式で2つお話しします) 2024/02/06 第52回 NLPコロキウム

1. アテンション重みを注意機構全体まで拡張 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第
1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構フィードフォワードネット層正規化層正規化第 # 層注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 ෼ੳείʔϓ ֦େ

1. アテンション重みを注意機構全体まで拡張 2024/02/06 1. 注意機構の処理を式変形する (分配則) 2. ノルムで「どれほど混ぜたか」を測る •
アイデア: ベクトルの⾜し算では⻑いベクトルほど結果に寄与する • 分析⽅法: アテンション重み 𝛼!,# の代わりにノルム 𝛼!,# × 𝒗# 𝑾$ で測る 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' Valueベクトル⾏列積ひとまとめにできた︕ ϕΫτϧͷॏΈ෇͚࿨ !! = # $(&" ) !(#! ) !(#( ) !(#! )

結果︓不⾃然な観察が消える 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1
層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 • ⽂頭または⽂末の特殊トークンにばかり注⽬する謎の傾向が消えた層層平均的な注⽬度合い ΞςϯγϣϯॏΈ 𝛼",! ϊϧϜ 𝛼",! × 𝒗! 𝑾$ 特殊トークンや句読点に過剰に注目する謎の傾向特殊トークンや句読点に特に強く注目していないモデルが不⾃然な挙動をしているように⾒えていたのは分析⼿法が限定的だったため

結果︓注意機構の「ゴミ箱機能」 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1
層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 • ゴミ箱機能 • 注意機構は特殊トークンに⼤きな重み 𝛼!,# を割り振る • しかし、それらの 𝒗#𝑾' は極めて⼩さくしておく • 注意機構の制約との関係 • ソフトマックスは必ず重みを合計１で割り振る • 特定のペア (e.g., 共参照ペア) が来たら重み付けしたいが、それ以外が来たら「何もしない」を実現したい「何もしない (no-operation)」を実現 (欲しい情報がない場合に重みを捨てる) 必ず出現する特殊トークンを重みのゴミ箱にする

余談︓最近の「ゴミ箱機能」関連の話題 2024/02/06 • 固定幅の軽量な注意機構ではゴミ箱の有無が性能に超重要 [Xiao+ʼ23] • ⽂頭にアテンション重みを計算できるようにしておくだけで圧倒的に性能が良い • ソフトマックスの制約を解消する提案
[Millerʼ23] • 分⺟に1を⾜すだけ → 合計1の制約を解消 softmax% 𝒙 ! = exp 𝑥! 1 + ∑# exp 𝑥# 各 𝑥! が⼗分に⼩さければ (−10以下など) 全体にほぼゼロを割り振れる

2. 分析スコープを層全体まで拡⼤ 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第
1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構フィードフォワードネット層正規化層正規化第 # 層注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構フィードフォワードネット層正規化層正規化第 # 層 ෼ੳείʔϓ ֦େ

… 注意機構フィードフォワードネット層正規化層正規化第 # 層モチベーション︓ 注意機構以外のモジュールも混ぜ合わせを変えられる︖ 2024/02/06 第52回 NLPコロキウム • 表現同⼠の混ぜ合わせは注意機構が担当 • それ以外のモジュールは混ぜ合わせを変えない...︖ • フィードフォワードネットは「パラメータに記憶した知識を単語表現に追加している」という考え⽅が広まりつつある周囲の情報 (⽂脈) を参照して単語表現を更新例: “⾸都” が “⽇本” を参照して “⽇本の⾸都” っぽい表現に更新単語表現を変換フィードフォワードネット: 2層 MLP 層正規化: 平均0・標準偏差1に正規化 & アフィン変換 पΓͱࠞͥΔ ݸผʹม׵

… 注意機構フィードフォワードネット層正規化層正規化第 # 層モチベーション︓ 注意機構以外のモジュールも混ぜ合わせを変えられる 2024/02/06 第52回 NLPコロキウム • 表現同⼠の混ぜ合わせは注意機構が担当 • それ以外のモジュールも混ぜ合わせを変えうる...︕ • 例えば注意機構の後に線形変換があるとすると Attn(𝑋)! 𝑾′ = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝑾′ = % #$% & 𝛼!,# × 𝒗#𝑾'𝑾′ ෼഑ଇ 各混ぜ合わせの強弱を注意機構の後から上書きできる (先ほどの分析拡張と同じ議論)

2. 分析スコープを層全体まで拡⼤ 2024/02/06 1. Transformer層の処理をひたすら式変形する 2. ノルムで「どれほど混ぜたか」を測る • アイデア:
ベクトルの⾜し算では⻑いベクトルほど結果に寄与する • 分析⽅法: アテンション重み 𝛼!,# の代わりにノルム 𝐹(𝒙# ) で測る 𝒚! = + #() * 𝐹(𝒙# ) なんとかベクトルの和にできた...︕ 分配則、勾配に基づく式変形 (式変形の詳細は論⽂ Appendix にて約４ページ) !! = # $(&" ) !(#! ) !(#( ) !(#! ) 𝒚! = LN2 RES2 FF LN1 RES1 ATTN 𝑿

結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06 • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50
を⽬視で7カテゴリに分類第52回 NLPコロキウム stud → ies among → others aaaa route → _route など week → ##night soap → operaaaa teacher → she など

を⽬視で7カテゴリに分類第52回 NLPコロキウム序盤層: サブワード分割ペアや複合名詞を構成するペア中盤〜終盤層: 意味的に関連のあるペアが増える表層的な処理から複雑な処理へと順に処理しているという知⾒ [Tenney+ʼ19] と⼀致 (?)

を⽬視で7カテゴリに分類第52回 NLPコロキウムフィードフォワードネットを「知識を記憶し、表現に追加する機構」ではなく、「関連深いペア間の混ぜ合わせを強める機構」と解釈する新たな⾒⽅を提供 (両者は⽭盾するのか・共存するのか・同⼀とみなせるのかを調査することは今後の課題)

結果︓層内のモジュール同⼠は作⽤を打ち消し合う 2024/02/06 • フィードフォワードネット・残差結合・層正規化を順に分析スコープに追加したときの混ぜ合わせの変化度合いフィードフォワードネットの作⽤が残差結合・層正規化に強く打ち消されるモデルの冗⻑性を⽰唆 (フィードフォワードネットは層のパラメータの約 2/3
を占める) モデルの効率化や改善が可能...︖

結果︓ フィードフォワードネットと層正規化の打ち消しの仕組み 2024/02/06 1. フィードフォワードネットは数次元に外れ値を作る • 混ぜ合わせへの作⽤はこの⼀部の次元に強く依存 2. 層正規化は変換でこれらの次元を
ピンポイントに打ち消す注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構フィードフォワードネット層正規化層正規化第 # 層

余談︓ 2つの層正規化も外れ値を通して打ち消し合う [Modarressi+ʼ22] 2024/02/06 • 層内にある2つの層正規化同⼠も外れ値で打ち消し合う • 対極となる重みを持つ注意機構
フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構フィードフォワードネット層正規化層正規化第 # 層

2024/02/06 • Transformer⾔語モデルの内部挙動を分析 • アテンション重みから分析スコープを拡⼤ • 主要な知⾒ • 注意機構における「ゴミ箱機能」の仕組みを解明 •
フィードフォワードネットも混ぜ合わせを変える •関係深いペアの混ぜ合わせを強める • フィードフォワードネットと残差結合・層正規化は強く打ち消し合う → 冗⻑性を⽰唆まとめ第52回 NLPコロキウム注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構フィードフォワードネット層正規化層正規化第 # 層

⽂献情報

本⽇ご紹介した論⽂ • [Kobayashi+’20] Attention is Not Only a Weight: Analyzing
Transformers with Vector Norms. In Proceedings of EMNLP, pp.7057-7075, 2020. https://aclanthology.org/2020.emnlp-main.574/ • [Kobayashi+’21] Incorporating Residual and Normalization Layers into Analysis of Masked Language Models. In Proceedings of EMNLP, pp.4547-4568, 2021. https://aclanthology.org/2021.emnlp-main.373/ • [Kobayashi+’24] Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Map. ICLR2024 Spotlight, 2024. https://openreview.net/forum?id=mYWsyTuiRp 2023/10/22 PhD colloquium @Tohoku NLP

参考⽂献 1 (Transformer⾔語モデルの導⼊) • [Vaswani+’17] Attention is All you Need.
In Proceedings of NeurIPS, pp.5998-6008, 2017. http://papers.nips.cc/paper/7181-attention-is-all-you-need • [Devlin+’19] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of NAACL, pp.4171-4186, 2019. https://www.aclweb.org/anthology/N19-1423/ • [Liu+’19] RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint, arXiv:1907.11692, 2019. http://arxiv.org/abs/1907.11692 • [Brown+’20] Language Models are Few-Shot Learners. In Proceedings of NeurIPS, pp.1877-1901, 2020. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html • [OpenAI+’23] GPT-4 Technical Report. arXiv preprint, arXiv:2303.08774, 2023. https://arxiv.org/abs/2303.08774 2023/10/22 PhD colloquium @Tohoku NLP

参考⽂献 2 (Transformer⾔語モデルの分析) • [Clark+’19] What Does BERT Look at?
An Analysis of BERT’s Attention. In Proceedings of BlackboxNLP, pp.276-286, 2019. https://aclanthology.org/W19-4828/ • [Vig&Belinkov’19] Analyzing the Structure of Attention in a Transformer Language Model. In Proceedings of BlackboxNLP, pp.63-76, 2019. https://aclanthology.org/W19-4808/ • [Xiao+’23] Efficient Streaming Language Models with Attention Sinks. arXiv preprint, arXiv:2309.17453, 2023. https://arxiv.org/abs/2309.17453 • [Miller+’23] Attention Is Off By One. Blog post, 2023. https://www.evanmiller.org/attention-is-off-by-one.html • [Tenney+’19] BERT Rediscovers the Classical NLP Pipeline. In Proceedings of ACL, pp.4593-4601, 2019. https://www.aclweb.org/anthology/P19-1452/ • [Modarressi+’22] GlobEnc: Quantifying Global Token Attribution by Incorporating the Whole Encoder Layer in Transformers. In Proceedings of NAACL, pp. 258-271, 2022. https://aclanthology.org/2022.naacl-main.19/ 2023/10/22 PhD colloquium @Tohoku NLP

Transformer言語モデルを内部挙動から理解する (第52回 NLPコロキウム, 小林悟...

Transformer言語モデルを内部挙動から理解する (第52回 NLPコロキウム, 小林悟郎, 2024/02/07)

Kogoro

More Decks by Kogoro

Featured

Transcript

Transformer⾔語モデルを内部挙動から理解する⼩林悟郎 2024/02/06 第52回 NLPコロキウム坂⼝・乾・徳久研究室博⼠２年（東北⼤学⾃然⾔語処理研究グループ）

⼩林悟郎 (Goro Kobayashi) 2024/02/06 第52回 NLPコロキウム • 東北⼤学

注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ

近年の⾃然⾔語処理の中⼼: Transformer⾔語モデル 2024/02/06 • 単語⽳埋めを⼤量に解かせて学習 → BERT [Devlin+ʼ19], RoBERTa

既存⼿法: アテンション重み (Attention weights) 2024/02/06 第52回 NLPコロキウム

アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06

アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06

アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06

アテンション重みの観察１︓依存関係 (=⾔語構造) と⼀致する • ⼀部の注意機構はアテンション重みが特定の依存関係とよく⼀致 2024/02/06 第52回 NLPコロキウム [Clark+’19]

アテンション重みの観察２︓共参照 (=意味的関係) と⼀致する • ⼀部の注意機構はアテンション重みが共参照とよく⼀致 2024/02/06 第52回 NLPコロキウム [Clark+’19]

アテンション重みの観察３︓特殊トークンに強く注⽬する • ほとんどの注意機構が⽂頭または⽂末の特殊トークンにばかり注⽬する謎の傾向 2024/02/06 [Clark+’19] 第52回 NLPコロキウム全体の半分以上の重みが

アテンション重みの観察３︓特殊トークンに強く注⽬する • ほとんどの注意機構が⽂頭または⽂末の特殊トークンにばかり注⽬する謎の傾向 2024/02/06 第52回 NLPコロキウム最近のLLM: ELYZA-japanese-Llama-2-7b-fast

分析の拡張と結果 (オムニバス形式で2つお話しします) 2024/02/06 第52回 NLPコロキウム

1. アテンション重みを注意機構全体まで拡張 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第

1. アテンション重みを注意機構全体まで拡張 2024/02/06 1. 注意機構の処理を式変形する (分配則) 2. ノルムで「どれほど混ぜたか」を測る •

結果︓不⾃然な観察が消える 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1

結果︓注意機構の「ゴミ箱機能」 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1

2. 分析スコープを層全体まで拡⼤ 2024/02/06 注意機構フィードフォワードネット層正規化層正規化予測ヘッド第

注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ

注意機構フィードフォワードネット層正規化層正規化予測ヘッド第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ

2. 分析スコープを層全体まで拡⼤ 2024/02/06 1. Transformer層の処理をひたすら式変形する 2. ノルムで「どれほど混ぜたか」を測る • アイデア:

結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06 • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50

結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06 • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50

結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06 • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50

結果︓ フィードフォワードネットと層正規化の打ち消しの仕組み 2024/02/06 1. フィードフォワードネットは数次元に外れ値を作る • 混ぜ合わせへの作⽤はこの⼀部の次元に強く依存 2. 層正規化は変換でこれらの次元を

余談︓ 2つの層正規化も外れ値を通して打ち消し合う [Modarressi+ʼ22] 2024/02/06 • 層内にある2つの層正規化同⼠も外れ値で打ち消し合う • 対極となる重みを持つ注意機構

2024/02/06 • Transformer⾔語モデルの内部挙動を分析 • アテンション重みから分析スコープを拡⼤ • 主要な知⾒ • 注意機構における「ゴミ箱機能」の仕組みを解明 •

⽂献情報

本⽇ご紹介した論⽂ • [Kobayashi+’20] Attention is Not Only a Weight: Analyzing

参考⽂献 1 (Transformer⾔語モデルの導⼊) • [Vaswani+’17] Attention is All you Need.

参考⽂献 2 (Transformer⾔語モデルの分析) • [Clark+’19] What Does BERT Look at?