Revisiting Over-smoothing in BERT from the Perspective of Graph

Slide 1

Slide 1 text

読む⼈︓横井祥 (東北⼤学） 2022-09-26, 第14回最先端NLP勉強会 ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です Revisiting Over-smoothing in BERT from the Perspective of Graph Han Shi, JIAHUI GAO, Hang Xu, Xiaodan Liang, Zhenguo Li, Lingpeng Kong, Stephen M. S. Lee, James Kwok ICLR 2022 https://openreview.net/forum?id=dUV91uaXm3

Slide 2

Slide 2 text

まとめ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 2 • BERT は層を深くすると埋込同⼠がどんどん似てくる • この現象の鍵のひとつは「層正規化に投げ込まれるトークン埋込がどんな数値を含むか」 (詳細後述) BERT に⼊⼒したテキストのトークン埋込たちが層を進むにつれて似てくる様⼦

Slide 3

Slide 3 text

注 3 • NLP ⽬線での経験的な新しさはあまりありませんが，今後の NLP 研究・開発に効きそうな話です． − グラフニューラルネットの知⾒を BERT に転⽤した，という話です． − 持ち込まれた考え⽅は NLP 研究に⽰唆を与える⾯⽩いものです． − 経験的知⾒は NLP コミュニティとしてはそこまで新しくありません． • 論⽂の⼀部のみを紹介します． − 紹介するコンテンツも詳細は⾶ばします．をつけておきます． − 式もだいたい⾶ばします．⼤事な式だけ，その読み⽅ (お気持ち) の説明をします． − 論⽂からは読み取りづらい式変形に関しても補⾜しておきます． • 脱線もたくさんします． SKIP ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ

Slide 4

Slide 4 text

扱うモデル︓BERTs ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 4 • 論⽂では Transformer という⽤語が使われているけれどちょっと強い • 提⽰された理論が直接適⽤できるのは⾃⼰注意機構 (self-attention) − cf. cross-attention • とくに，議論や数値実験の対象は BERT 型のモデル − cf. left-to-right LMs 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020)

Slide 5

Slide 5 text

観察︓ BERT でも過平滑化が起きている

Slide 6

Slide 6 text

グラフニューラルネットにおける過平滑化 [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 6 • グラフNNで知られる過平滑化 (over-smoothing) 問題 − 層を積むとノード表現同⼠が似てくる，⾒分けがつかなくなる． − 正規化隣接⾏列を何度も掛けわせる作⽤が効く． https://towardsdatascience.com/over-smoothing-issue-in-graph-neural-network-bddc8fbc2472 📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)

Slide 7

Slide 7 text

仮説︓BERTs でも過平滑化が起きるのでは︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 7 • 🤔 BERT は注意機構を介してトークンを全結合したグラフを扱っているように⾒える • 🤔 実際 BERT とグラフ畳み込みネットの構成は似ている Fig. 2(a) 𝐹𝐹(𝑿′) = 𝑅𝑒𝐿𝑈 𝑿′𝑾! + 𝒃! 𝑾" + 𝒃" : attention ⾏列 : (正規化) 隣接⾏列 ,

Slide 8

Slide 8 text

観察︓BERT でも過平滑化が起きている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 8 • 測り⽅︓同⼀⽂内のトークン埋込同⼠の cos は⼤きい︖ • 結果︓層が深くなるにつれてどんどんトークン埋込同⼠の⾒分けがつかなくなる Fig. 1(a) データ︓WikiBio モデル︓SQuAD で fine-tune 済

Slide 9

Slide 9 text

注︓トークン埋込の「過平滑化」は NLP では「⾮等⽅性」という名前で知られている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 9 • 注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側では既知の知⾒ − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワードで知られる − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21] • [私⾒] これは決して悪いことではないと思ってます − GNN の過平滑化の知⾒と，NLP の⾮等⽅性の知⾒の相互輸⼊の契機 − 実際，今⽇紹介する論⽂の貢献を悪意をもって要約すれば「GNN の理論を Transformer に輸⼊してみた」になるでしょう − 分野間に橋をかけるのはそれ⾃体偉い 📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019) 📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)

Slide 10

Slide 10 text

注︓トークン埋込の「過平滑化」は NLP では「⾮等⽅性」という名前で知られている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 10 • 注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側では既知の知⾒ − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワードで知られる − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21] • さらに注︓NLP の「等⽅性」や「錐」の⽤法も⼤変あやしい − NLP では過平滑化された埋込の性質が「⾮等⽅性 (anisotropy)」「等⽅性 (isotropy)」と⾔及されるが，「等⽅性 (isotropy)」の⼀般的な定義を無視したややお気持ちキーワード − NLP では過平滑化された埋込の配置が「錐 (cone)」と⾔及されるが，「錐 (cone)」の定義を無視したややお気持ちキーワード − 定義に戻って埋込を観察すると⾯⽩いことが⾊々わかる．乞うご期待 📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019) 📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)

Slide 11

Slide 11 text

注︓CosSim では過平滑化は測りきれない ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 11 • CosSim − 過平滑化 (GNN) でも⾮等⽅性 (NLP) でも典型的な評価尺度 − が，実際には過平滑化・⾮等⽅性の尺度としてはやや不⾃然

Slide 12

Slide 12 text

注︓CosSim では過平滑化は測りきれない ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 12 • CosSim SimCos ≈ 0 過平滑化 (埋込集中) なし SimCos ≈ 1 過平滑化 (埋込集中) あり SimCos ≈ 0 過平滑化 (埋込集中) なし? ✔ ✔ ︖

Slide 13

Slide 13 text

BERT の過平滑化問題の鍵は層正規化に⼊る埋込の標準偏差の最⼩値 ……と思えるかも

Slide 14

Slide 14 text

ここから ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 14 • BERTs はグラフ畳み込みネットっぽいな…… • → グラフニューラルネットの⾮平滑化の理論的知⾒ [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] を活かして BERTs の⾮平滑化にも理論的知⾒を与えたい 📄 Oono&Suzuki, Graph Neural Networks ExponenXally Lose Expressive Power for Node ClassiﬁcaXon (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph ConvoluXonal Networks (arXiv 2020)

Slide 15

Slide 15 text

主結果

Slide 16

Slide 16 text

主結果︓⾃⼰注意機構における過平滑化 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 16 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2)

Slide 17

Slide 17 text

主結果︓⾃⼰注意機構における過平滑化 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 17 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2) 𝑑ℳ (𝑯) 𝑯 と ℳ の距離 “正射影して距離 (Frobenius norm) を測る” ℳ ⾏列全体のうち，全⾏ (全トークン埋込) が全く同じ⾏列の集合 𝑯" ⼊⼒テキストを構成するトークンの埋込 (⾏) を積んだ⾏列層を経る毎に (𝑖 = 0, 1, …) 更新されていく

Slide 18

Slide 18 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 18 1. 各モジュールが埋込⾏列 𝑯 に与える作⽤を陽に書く Proof of Thm. 2 これを式に落としているだけ 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020)

Slide 19

Slide 19 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 19 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える

Slide 20

Slide 20 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 20 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考えるたとえば⾏列 𝑾 をかける場合， 𝑾 の最⼤特異値 𝑠 が縮退具合に効く 𝑾 が⼀番引き伸ばす⽅向での拡⼤率これが 1 より⼩さければ (全⽅向の拡⼤率が 1 より⼩さければ)， 𝑾 をかけることで 𝑯 が⼊っているスペースが縮んでいく https://en.wikipedia.org/wiki/Singular_value_decomposition

Slide 21

Slide 21 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 21 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える新規性︖︓上の3つは [Oono&Suzuki,ICLRʼ20] [Huang+arXivʼ20] より今⽇紹介している論⽂は， GNN の過平滑化を分析する技術を BERTs 向けに翻訳しているのが偉い技術的新規性は少ないかもしれないけれど，分野間に橋をかけるのはそれ⾃体偉い (私⾒)

Slide 22

Slide 22 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 22 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える NLP から⾒た嬉しさ︓ BERTs 内でトークン埋込が配置変更されるか (過平滑化, ⾮等⽅化するか) についての定量的なガイドが増えた

Slide 23

Slide 23 text

BERTs の過平滑化の鍵は，層正規化に⼊る埋込の標準偏差の最⼩値追って詳しく

Slide 24

Slide 24 text

Q. 埋込たちが過平滑化する (𝒗 < 𝟏) のは具体的にどういうとき︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 24 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2)

Slide 25

Slide 25 text

ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 25 • 層正規化 (layer normalization) 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020) A. BERTs の過平滑化の鍵は，層正規化に⼊る埋込の標準偏差の最⼩値

Slide 26

Slide 26 text

ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 26 • 層正規化 (layer normalization) − 個々の埋込をスカラーの集合だと思って中⼼化 & 基準化 (標準偏差で割る) 📄 Xiong+, On Layer NormalizaXon in the Transformer Architecture (ICML 2020) A. BERTs の過平滑化の鍵は，層正規化に⼊る埋込の標準偏差の最⼩値 📄 Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021)

Slide 27

Slide 27 text

• 層正規化 (layer normalization) − 個々の埋込をスカラーの集合だと思って中⼼化 & 基準化 (標準偏差で割る) • BERTs で過平滑化が起きる条件 − 層正規化 × 2 に⼊ってくる埋込の標準偏差の最⼩値 𝜎!, 𝜎" が 𝜎!𝜎" > 1 − ＝層正規化に⼊ってくるどの埋込も要素が⼗分バラついている A. BERTs の過平滑化の鍵は，層正規化に⼊る埋込の標準偏差の最⼩値 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 27 📄 Xiong+, On Layer NormalizaXon in the Transformer Architecture (ICML 2020) 複数のトークン埋込が同時に流れてくるので，トークン数だけ標準偏差が計算される正確には，起きる⼗分条件 (𝑣 < 1) の近似 (𝑠 ≈ 0)

Slide 28

Slide 28 text

層正規化に⼊る埋込の標準偏差の最⼩値 𝝈𝟏 𝝈𝟐 と過平滑化現象には関係がありそう ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 28 • 層正規化に⼊る埋込の標準偏差の最⼩値 𝜎!𝜎" • cos 平均どんな⽂ (トークン列) を⼊れても 𝜎#𝜎$ > 1 となる (＝理論上過平滑化が起こりやすい) データ cos 平均 (実際の埋込の集中具合; ⻘線) が⼤きい＝経験的にも過平滑化が強く起きる

Slide 29

Slide 29 text

⾊々コンポーネントがある中でなぜ層正規化だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 29 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 SKIP

Slide 30

Slide 30 text

⾊々コンポーネントがある中でなぜ層正規化だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 30 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列の最⼤特異値 𝑠 ⾃⼰注意機構の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 SKIP

Slide 31

Slide 31 text

⾊々コンポーネントがある中でなぜ層正規化だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 31 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列の最⼤特異値 𝑠 ⾃⼰注意機構の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 ≈ 1 𝜎2 𝜎3 NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと… 𝜎# 𝜎$ > 1 SKIP

Slide 32

Slide 32 text

⾊々コンポーネントがある中でなぜ層正規化だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 32 • 適当な条件の下で，埋込を積んだ⾏列 𝑯 は，全⾏が同じ⾏列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列の最⼤特異値 𝑠 ⾃⼰注意機構の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 ≈ 1 𝜎2 𝜎3 NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと… 𝜎# 𝜎$ > 1 SKIP

Slide 33

Slide 33 text

𝝈𝟏 𝝈𝟐 はどこから降ってきました︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 33 • 層正規化の処理は3段階 1. ベクトルを引く −𝑚(𝒉) 2. 右から ! # 𝒉 diag(𝜸) をかける 3. ベクトルを⾜す +𝜷 • 上の 2 を 𝐻 に対する作⽤の形に書き換えると︓ − diag ! # 𝒉) , ! # 𝒉* , … 𝑯 diag 𝜸 • この作⽤の最⼤特異値 (縮退に⽀配的な係数) は，層正規化にまとめて突っ込まれる 𝒉& たちの標準偏差 𝑠(𝒉&) の最⼩値で決まる • ※ 復習したい⼈向けの注︓論⽂には陽に書かれていません − 𝑫%& という記号が出てくる式周辺をエスパーするとたぶんこう 📄 Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021) SKIP

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

まとめ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 35 • BERT は層を深くすると埋込同⼠がどんどん似てくる • 主結果︓BERTs の過平滑化のダイナミクスを [Oono&Suzuki,ICLRʼ20] [Huang+,arXivʼ20] に基づいて記述 − 基本的なアイデア︓点群の存在域が狭くなっていく様⼦を，個々の作⽤の最⼤固有値 (特異値) で押さえる − とくに，層正規化に⼊る埋込の標準偏差の最⼩値が⼤きい場合に過平滑化が起きやすそう． 📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)

Slide 36

Slide 36 text

⾶ばした話 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 36 • モデル提案 − 後半層で over-smoothing しちゃうなら，前半層と後半層の表現を同時に使えるように繋げば良いのでは︖ − → 過平滑化が緩和 − ※ 主結果で得られた話 (縮退は何に起因するのか，とくに縮退の肝は layer normalization っぽい) との繋がりはない提案