Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Revisiting Over-smoothing in BERT from the Perspective of Graph

Sho Yokoi
PRO
September 26, 2022

Revisiting Over-smoothing in BERT from the Perspective of Graph

第14回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2022

Sho Yokoi
PRO

September 26, 2022
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. 読む⼈︓横井 祥 (東北⼤学)
    2022-09-26, 第14回最先端NLP勉強会
    ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です
    Revisiting Over-smoothing in BERT
    from the Perspective of Graph
    Han Shi, JIAHUI GAO, Hang Xu, Xiaodan Liang, Zhenguo Li,
    Lingpeng Kong, Stephen M. S. Lee, James Kwok
    ICLR 2022
    https://openreview.net/forum?id=dUV91uaXm3

    View Slide

  2. まとめ
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    2
    • BERT は層を深くすると埋込同⼠がどんどん似てくる
    • この現象の鍵のひとつは「層正規化に投げ込まれるトーク
    ン埋込がどんな数値を含むか」 (詳細後述)
    BERT に⼊⼒したテキストのトークン埋込たちが
    層を進むにつれて似てくる様⼦

    View Slide


  3. 3
    • NLP ⽬線での経験的な新しさはあまりありませんが,今後の
    NLP 研究・開発に効きそうな話です.
    − グラフニューラルネットの知⾒を BERT に転⽤した,という話です.
    − 持ち込まれた考え⽅は NLP 研究に⽰唆を与える⾯⽩いものです.
    − 経験的知⾒は NLP コミュニティとしてはそこまで新しくありません.
    • 論⽂の⼀部のみを紹介します.
    − 紹介するコンテンツも詳細は⾶ばします. をつけておきます.
    − 式もだいたい⾶ばします.⼤事な式だけ,その読み⽅ (お気持ち) の説
    明をします.
    − 論⽂からは読み取りづらい式変形に関しても補⾜しておきます.
    • 脱線もたくさんします.
    SKIP
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ

    View Slide

  4. 扱うモデル︓BERTs
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    4
    • 論⽂では Transformer という⽤語が
    使われているけれどちょっと強い
    • 提⽰された理論が直接適⽤できるのは
    ⾃⼰注意機構 (self-attention)
    − cf. cross-attention
    • とくに,議論や数値実験の対象は
    BERT 型のモデル
    − cf. left-to-right LMs
    📄 Xiong+, On Layer Normalization in the
    Transformer Architecture (ICML 2020)

    View Slide

  5. 観察︓
    BERT でも過平滑化が起きている

    View Slide

  6. グラフニューラルネットにおける過平滑化
    [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20]
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    6
    • グラフNNで知られる過平滑化 (over-smoothing) 問題
    − 層を積むとノード表現同⼠が似てくる,⾒分けがつかなくなる.
    − 正規化隣接⾏列を何度も掛けわせる作⽤が効く.
    https://towardsdatascience.com/over-smoothing-issue-in-graph-neural-network-bddc8fbc2472
    📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020)
    📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)

    View Slide

  7. 仮説︓BERTs でも過平滑化が起きるのでは︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    7
    • 🤔 BERT は注意機構を介して
    トークンを全結合したグラフを
    扱っているように⾒える
    • 🤔 実際 BERT とグラフ畳み込みネットの構成は似ている
    Fig. 2(a)
    𝐹𝐹(𝑿′) = 𝑅𝑒𝐿𝑈 𝑿′𝑾! + 𝒃! 𝑾" + 𝒃"
    : attention ⾏列
    : (正規化) 隣接⾏列
    ,

    View Slide

  8. 観察︓BERT でも過平滑化が起きている
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    8
    • 測り⽅︓同⼀⽂内のトークン埋込同⼠の cos は⼤きい︖
    • 結果︓層が深くなるにつれて
    どんどんトークン埋込同⼠の
    ⾒分けがつかなくなる
    Fig. 1(a)
    データ︓WikiBio
    モデル︓SQuAD で fine-tune 済

    View Slide

  9. 注︓トークン埋込の「過平滑化」は
    NLP では「⾮等⽅性」という名前で知られている
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    9
    • 注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側で
    は既知の知⾒
    − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワ
    ードで知られる
    − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21]
    • [私⾒] これは決して悪いことではないと思ってます
    − GNN の過平滑化の知⾒と,NLP の⾮等⽅性の知⾒の相互輸⼊の契機
    − 実際,今⽇紹介する論⽂の貢献を悪意をもって要約すれば「GNN の理
    論を Transformer に輸⼊してみた」になるでしょう
    − 分野間に橋をかけるのはそれ⾃体偉い
    📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019)
    📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)

    View Slide

  10. 注︓トークン埋込の「過平滑化」は
    NLP では「⾮等⽅性」という名前で知られている
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    10
    • 注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側で
    は既知の知⾒
    − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワ
    ードで知られる
    − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21]
    • さらに注︓NLP の「等⽅性」や「錐」の⽤法も⼤変あやしい
    − NLP では過平滑化された埋込の性質が「⾮等⽅性 (anisotropy)」「等
    ⽅性 (isotropy)」と⾔及されるが,「等⽅性 (isotropy)」の⼀般的な
    定義を無視したややお気持ちキーワード
    − NLP では過平滑化された埋込の配置が「錐 (cone)」と⾔及されるが,
    「錐 (cone)」の定義を無視したややお気持ちキーワード
    − 定義に戻って埋込を観察すると⾯⽩いことが⾊々わかる.乞うご期待
    📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019)
    📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)

    View Slide

  11. 注︓CosSim では過平滑化は測りきれない
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    11
    • CosSim
    − 過平滑化 (GNN) でも⾮等⽅性 (NLP) でも典型的な評価尺度
    − が,実際には過平滑化・⾮等⽅性の尺度としてはやや不⾃然

    View Slide

  12. 注︓CosSim では過平滑化は測りきれない
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    12
    • CosSim
    SimCos ≈ 0
    過平滑化 (埋込集中) なし
    SimCos ≈ 1
    過平滑化 (埋込集中) あり
    SimCos ≈ 0
    過平滑化 (埋込集中) なし?
    ✔ ✔ ︖

    View Slide

  13. BERT の過平滑化問題の鍵は
    層正規化に⼊る埋込の標準偏差の最⼩値
    ……と思えるかも

    View Slide

  14. ここから
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    14
    • BERTs はグラフ畳み込みネットっぽいな……
    • → グラフニューラルネットの⾮平滑化の理論的知⾒
    [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] を活かして
    BERTs の⾮平滑化にも理論的知⾒を与えたい
    📄 Oono&Suzuki, Graph Neural Networks ExponenXally Lose Expressive Power for Node ClassificaXon (ICLR 2020)
    📄 Huang+, Tackling Over-Smoothing for General Graph ConvoluXonal Networks (arXiv 2020)

    View Slide

  15. 主結果

    View Slide

  16. 主結果︓⾃⼰注意機構における過平滑化
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    16
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)

    View Slide

  17. 主結果︓⾃⼰注意機構における過平滑化
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    17
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)
    𝑑ℳ
    (𝑯)
    𝑯 と ℳ の距離
    “正射影して距離 (Frobenius norm) を測る”

    ⾏列全体のうち,全⾏ (全トークン埋込) が
    全く同じ⾏列の集合
    𝑯"
    ⼊⼒テキストを構成するトークンの埋込 (⾏)
    を積んだ⾏列
    層を経る毎に (𝑖 = 0, 1, …) 更新されていく

    View Slide

  18. 証明の肝
    NLP で活⽤できそうな技術
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    18
    1. 各モジュールが埋込⾏列 𝑯 に与える作⽤を陽に書く
    Proof of Thm. 2
    これを式に
    落としているだけ
    📄 Xiong+, On Layer Normalization in the
    Transformer Architecture (ICML 2020)

    View Slide

  19. 証明の肝
    NLP で活⽤できそうな技術
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    19
    2. 各作⽤が埋込⾏列をどの程度縮退させるか
    (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える

    View Slide

  20. 証明の肝
    NLP で活⽤できそうな技術
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    20
    2. 各作⽤が埋込⾏列をどの程度縮退させるか
    (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える
    たとえば⾏列 𝑾 をかける場合,
    𝑾 の最⼤特異値 𝑠 が縮退具合に効く
    𝑾 が⼀番引き伸ばす⽅向での拡⼤率
    これが 1 より⼩さければ
    (全⽅向の拡⼤率が 1 より⼩さければ),
    𝑾 をかけることで 𝑯 が⼊っているスペースが縮んでいく
    https://en.wikipedia.org/wiki/Singular_value_decomposition

    View Slide

  21. 証明の肝
    NLP で活⽤できそうな技術
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    21
    2. 各作⽤が埋込⾏列をどの程度縮退させるか
    (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える
    新規性︖︓上の3つは
    [Oono&Suzuki,ICLRʼ20]
    [Huang+arXivʼ20] より
    今⽇紹介している論⽂は,
    GNN の過平滑化を分析する技術を BERTs 向けに翻訳しているのが偉い
    技術的新規性は少ないかもしれないけれど,
    分野間に橋をかけるのはそれ⾃体偉い (私⾒)

    View Slide

  22. 証明の肝
    NLP で活⽤できそうな技術
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    22
    2. 各作⽤が埋込⾏列をどの程度縮退させるか
    (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える
    NLP から⾒た嬉しさ︓
    BERTs 内でトークン埋込が配置変更されるか
    (過平滑化, ⾮等⽅化するか) についての
    定量的なガイドが増えた

    View Slide

  23. BERTs の過平滑化の鍵は,
    層正規化に⼊る埋込の標準偏差の最⼩値
    追って詳しく

    View Slide

  24. Q. 埋込たちが過平滑化する (𝒗 < 𝟏) のは
    具体的にどういうとき︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    24
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)

    View Slide

  25. ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    25
    • 層正規化 (layer normalization)
    📄 Xiong+, On Layer Normalization in the
    Transformer Architecture (ICML 2020)
    A. BERTs の過平滑化の鍵は,
    層正規化に⼊る埋込の標準偏差の最⼩値

    View Slide

  26. ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    26
    • 層正規化 (layer normalization)
    − 個々の埋込をスカラーの集合だと思って
    中⼼化 & 基準化 (標準偏差で割る)
    📄 Xiong+, On Layer NormalizaXon in the
    Transformer Architecture (ICML 2020)
    A. BERTs の過平滑化の鍵は,
    層正規化に⼊る埋込の標準偏差の最⼩値
    📄 Kobayashi+, Incorporating Residual and Normalization Layers
    into Analysis of Masked Language Models (EMNLP 2021)

    View Slide

  27. • 層正規化 (layer normalization)
    − 個々の埋込をスカラーの集合だと思って
    中⼼化 & 基準化 (標準偏差で割る)
    • BERTs で過平滑化が起きる条件
    − 層正規化 × 2 に⼊ってくる埋込の
    標準偏差の最⼩値 𝜎!, 𝜎"
    が 𝜎!𝜎" > 1
    − =層正規化に⼊ってくるどの埋込も
    要素が⼗分バラついている
    A. BERTs の過平滑化の鍵は,
    層正規化に⼊る埋込の標準偏差の最⼩値
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    27
    📄 Xiong+, On Layer NormalizaXon in the
    Transformer Architecture (ICML 2020)
    複数のトークン埋込が同時に流れてくるので,
    トークン数だけ標準偏差が計算される
    正確には,起きる⼗分条件 (𝑣 < 1) の近似 (𝑠 ≈ 0)

    View Slide

  28. 層正規化に⼊る埋込の標準偏差の最⼩値 𝝈𝟏
    𝝈𝟐
    と過平滑化現象には関係がありそう
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    28
    • 層正規化に⼊る埋込の標準偏差の最⼩値 𝜎!𝜎"
    • cos 平均
    どんな⽂ (トークン列) を⼊れても 𝜎#𝜎$ > 1 となる
    (=理論上過平滑化が起こりやすい) データ
    cos 平均 (実際の埋込の集中具合; ⻘線) が⼤きい
    =経験的にも過平滑化が強く起きる

    View Slide

  29. ⾊々コンポーネントがある中でなぜ層正規化
    だけ⾒れば良い︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    29
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)
    𝑣 < 1
    SKIP

    View Slide

  30. ⾊々コンポーネントがある中でなぜ層正規化
    だけ⾒れば良い︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    30
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)
    𝑣 < 1

    層数
    𝑠
    FF 内の⾏列
    の最⼤特異値
    𝑠
    ⾃⼰注意機構
    の出⼝の⾏列
    (𝑾%𝑾&)
    の最⼤特異値
    𝜆
    𝑨' 𝑰 − #
    (
    𝟏𝟏' 𝑨
    の最⼤固有値
    𝑨: Attention ⾏列
    SKIP

    View Slide

  31. ⾊々コンポーネントがある中でなぜ層正規化
    だけ⾒れば良い︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    31
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)
    𝑣 < 1

    層数
    𝑠
    FF 内の⾏列
    の最⼤特異値
    𝑠
    ⾃⼰注意機構
    の出⼝の⾏列
    (𝑾%𝑾&)
    の最⼤特異値
    𝜆
    𝑨' 𝑰 − #
    (
    𝟏𝟏' 𝑨
    の最⼤固有値
    𝑨: Attention ⾏列

    1
    𝜎2
    𝜎3
    NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと…
    𝜎#
    𝜎$
    > 1
    SKIP

    View Slide

  32. ⾊々コンポーネントがある中でなぜ層正規化
    だけ⾒れば良い︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    32
    • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏
    列の集合 ℳ に近づいていく (定理2)
    𝑣 < 1

    層数
    𝑠
    FF 内の⾏列
    の最⼤特異値
    𝑠
    ⾃⼰注意機構
    の出⼝の⾏列
    (𝑾%𝑾&)
    の最⼤特異値
    𝜆
    𝑨' 𝑰 − #
    (
    𝟏𝟏' 𝑨
    の最⼤固有値
    𝑨: Attention ⾏列

    1
    𝜎2
    𝜎3
    NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと…
    𝜎#
    𝜎$
    > 1
    SKIP

    View Slide

  33. 𝝈𝟏
    𝝈𝟐
    はどこから降ってきました︖
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    33
    • 層正規化の処理は3段階
    1. ベクトルを引く −𝑚(𝒉)
    2. 右から !
    # 𝒉
    diag(𝜸) をかける
    3. ベクトルを⾜す +𝜷
    • 上の 2 を 𝐻 に対する作⽤の形に書き換えると︓
    − diag !
    # 𝒉)
    , !
    # 𝒉*
    , … 𝑯 diag 𝜸
    • この作⽤の最⼤特異値 (縮退に⽀配的な係数) は,層正規化
    にまとめて突っ込まれる 𝒉&
    たちの標準偏差 𝑠(𝒉&) の最⼩値
    で決まる
    • ※ 復習したい⼈向けの注︓論⽂には陽に書かれていません
    − 𝑫%&
    という記号が出てくる式周辺をエスパーするとたぶんこう
    📄 Kobayashi+, Incorporating Residual and Normalization Layers
    into Analysis of Masked Language Models (EMNLP 2021)
    SKIP

    View Slide

  34. まとめ

    View Slide

  35. まとめ
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    35
    • BERT は層を深くすると埋込同⼠がどんどん似てくる
    • 主結果︓BERTs の過平滑化のダイナミクスを
    [Oono&Suzuki,ICLRʼ20] [Huang+,arXivʼ20] に基づいて記述
    − 基本的なアイデア︓点群の存在域が狭くなっていく様⼦を,個々の作
    ⽤の最⼤固有値 (特異値) で押さえる
    − とくに,層正規化に⼊る埋込の標準偏差の最⼩値が⼤きい場合に過平
    滑化が起きやすそう.
    📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020)
    📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)

    View Slide

  36. ⾶ばした話
    ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3
    ঺հऀԣҪ
    36
    • モデル提案
    − 後半層で over-smoothing しちゃうなら,前半層と後半層の表現を
    同時に使えるように繋げば良いのでは︖
    − → 過平滑化が緩和
    − ※ 主結果で得られた話 (縮退は何に起因するのか,とくに縮退の肝は
    layer normalization っぽい) との繋がりはない提案

    View Slide