Slide 1

Slide 1 text

読む⼈︓横井 祥 (東北⼤学) 2022-09-26, 第14回最先端NLP勉強会 ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です Revisiting Over-smoothing in BERT from the Perspective of Graph Han Shi, JIAHUI GAO, Hang Xu, Xiaodan Liang, Zhenguo Li, Lingpeng Kong, Stephen M. S. Lee, James Kwok ICLR 2022 https://openreview.net/forum?id=dUV91uaXm3

Slide 2

Slide 2 text

まとめ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 2 • BERT は層を深くすると埋込同⼠がどんどん似てくる • この現象の鍵のひとつは「層正規化に投げ込まれるトーク ン埋込がどんな数値を含むか」 (詳細後述) BERT に⼊⼒したテキストのトークン埋込たちが 層を進むにつれて似てくる様⼦

Slide 3

Slide 3 text

注 3 • NLP ⽬線での経験的な新しさはあまりありませんが,今後の NLP 研究・開発に効きそうな話です. − グラフニューラルネットの知⾒を BERT に転⽤した,という話です. − 持ち込まれた考え⽅は NLP 研究に⽰唆を与える⾯⽩いものです. − 経験的知⾒は NLP コミュニティとしてはそこまで新しくありません. • 論⽂の⼀部のみを紹介します. − 紹介するコンテンツも詳細は⾶ばします. をつけておきます. − 式もだいたい⾶ばします.⼤事な式だけ,その読み⽅ (お気持ち) の説 明をします. − 論⽂からは読み取りづらい式変形に関しても補⾜しておきます. • 脱線もたくさんします. SKIP ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ

Slide 4

Slide 4 text

扱うモデル︓BERTs ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 4 • 論⽂では Transformer という⽤語が 使われているけれどちょっと強い • 提⽰された理論が直接適⽤できるのは ⾃⼰注意機構 (self-attention) − cf. cross-attention • とくに,議論や数値実験の対象は BERT 型のモデル − cf. left-to-right LMs 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020)

Slide 5

Slide 5 text

観察︓ BERT でも過平滑化が起きている

Slide 6

Slide 6 text

グラフニューラルネットにおける過平滑化 [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 6 • グラフNNで知られる過平滑化 (over-smoothing) 問題 − 層を積むとノード表現同⼠が似てくる,⾒分けがつかなくなる. − 正規化隣接⾏列を何度も掛けわせる作⽤が効く. https://towardsdatascience.com/over-smoothing-issue-in-graph-neural-network-bddc8fbc2472 📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)

Slide 7

Slide 7 text

仮説︓BERTs でも過平滑化が起きるのでは︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 7 • 🤔 BERT は注意機構を介して トークンを全結合したグラフを 扱っているように⾒える • 🤔 実際 BERT とグラフ畳み込みネットの構成は似ている Fig. 2(a) 𝐹𝐹(𝑿′) = 𝑅𝑒𝐿𝑈 𝑿′𝑾! + 𝒃! 𝑾" + 𝒃" : attention ⾏列 : (正規化) 隣接⾏列 ,

Slide 8

Slide 8 text

観察︓BERT でも過平滑化が起きている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 8 • 測り⽅︓同⼀⽂内のトークン埋込同⼠の cos は⼤きい︖ • 結果︓層が深くなるにつれて どんどんトークン埋込同⼠の ⾒分けがつかなくなる Fig. 1(a) データ︓WikiBio モデル︓SQuAD で fine-tune 済

Slide 9

Slide 9 text

注︓トークン埋込の「過平滑化」は NLP では「⾮等⽅性」という名前で知られている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 9 • 注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側で は既知の知⾒ − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワ ードで知られる − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21] • [私⾒] これは決して悪いことではないと思ってます − GNN の過平滑化の知⾒と,NLP の⾮等⽅性の知⾒の相互輸⼊の契機 − 実際,今⽇紹介する論⽂の貢献を悪意をもって要約すれば「GNN の理 論を Transformer に輸⼊してみた」になるでしょう − 分野間に橋をかけるのはそれ⾃体偉い 📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019) 📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)

Slide 10

Slide 10 text

注︓トークン埋込の「過平滑化」は NLP では「⾮等⽅性」という名前で知られている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 10 • 注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側で は既知の知⾒ − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワ ードで知られる − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21] • さらに注︓NLP の「等⽅性」や「錐」の⽤法も⼤変あやしい − NLP では過平滑化された埋込の性質が「⾮等⽅性 (anisotropy)」「等 ⽅性 (isotropy)」と⾔及されるが,「等⽅性 (isotropy)」の⼀般的な 定義を無視したややお気持ちキーワード − NLP では過平滑化された埋込の配置が「錐 (cone)」と⾔及されるが, 「錐 (cone)」の定義を無視したややお気持ちキーワード − 定義に戻って埋込を観察すると⾯⽩いことが⾊々わかる.乞うご期待 📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019) 📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)

Slide 11

Slide 11 text

注︓CosSim では過平滑化は測りきれない ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 11 • CosSim − 過平滑化 (GNN) でも⾮等⽅性 (NLP) でも典型的な評価尺度 − が,実際には過平滑化・⾮等⽅性の尺度としてはやや不⾃然

Slide 12

Slide 12 text

注︓CosSim では過平滑化は測りきれない ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 12 • CosSim SimCos ≈ 0 過平滑化 (埋込集中) なし SimCos ≈ 1 過平滑化 (埋込集中) あり SimCos ≈ 0 過平滑化 (埋込集中) なし? ✔ ✔ ︖

Slide 13

Slide 13 text

BERT の過平滑化問題の鍵は 層正規化に⼊る埋込の標準偏差の最⼩値 ……と思えるかも

Slide 14

Slide 14 text

ここから ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 14 • BERTs はグラフ畳み込みネットっぽいな…… • → グラフニューラルネットの⾮平滑化の理論的知⾒ [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] を活かして BERTs の⾮平滑化にも理論的知⾒を与えたい 📄 Oono&Suzuki, Graph Neural Networks ExponenXally Lose Expressive Power for Node ClassificaXon (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph ConvoluXonal Networks (arXiv 2020)

Slide 15

Slide 15 text

主結果

Slide 16

Slide 16 text

主結果︓⾃⼰注意機構における過平滑化 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 16 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2)

Slide 17

Slide 17 text

主結果︓⾃⼰注意機構における過平滑化 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 17 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑑ℳ (𝑯) 𝑯 と ℳ の距離 “正射影して距離 (Frobenius norm) を測る” ℳ ⾏列全体のうち,全⾏ (全トークン埋込) が 全く同じ⾏列の集合 𝑯" ⼊⼒テキストを構成するトークンの埋込 (⾏) を積んだ⾏列 層を経る毎に (𝑖 = 0, 1, …) 更新されていく

Slide 18

Slide 18 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 18 1. 各モジュールが埋込⾏列 𝑯 に与える作⽤を陽に書く Proof of Thm. 2 これを式に 落としているだけ 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020)

Slide 19

Slide 19 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 19 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える

Slide 20

Slide 20 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 20 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える たとえば⾏列 𝑾 をかける場合, 𝑾 の最⼤特異値 𝑠 が縮退具合に効く 𝑾 が⼀番引き伸ばす⽅向での拡⼤率 これが 1 より⼩さければ (全⽅向の拡⼤率が 1 より⼩さければ), 𝑾 をかけることで 𝑯 が⼊っているスペースが縮んでいく https://en.wikipedia.org/wiki/Singular_value_decomposition

Slide 21

Slide 21 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 21 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える 新規性︖︓上の3つは [Oono&Suzuki,ICLRʼ20] [Huang+arXivʼ20] より 今⽇紹介している論⽂は, GNN の過平滑化を分析する技術を BERTs 向けに翻訳しているのが偉い 技術的新規性は少ないかもしれないけれど, 分野間に橋をかけるのはそれ⾃体偉い (私⾒)

Slide 22

Slide 22 text

証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 22 2. 各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える NLP から⾒た嬉しさ︓ BERTs 内でトークン埋込が配置変更されるか (過平滑化, ⾮等⽅化するか) についての 定量的なガイドが増えた

Slide 23

Slide 23 text

BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値 追って詳しく

Slide 24

Slide 24 text

Q. 埋込たちが過平滑化する (𝒗 < 𝟏) のは 具体的にどういうとき︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 24 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2)

Slide 25

Slide 25 text

ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 25 • 層正規化 (layer normalization) 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020) A. BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値

Slide 26

Slide 26 text

ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 26 • 層正規化 (layer normalization) − 個々の埋込をスカラーの集合だと思って 中⼼化 & 基準化 (標準偏差で割る) 📄 Xiong+, On Layer NormalizaXon in the Transformer Architecture (ICML 2020) A. BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値 📄 Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021)

Slide 27

Slide 27 text

• 層正規化 (layer normalization) − 個々の埋込をスカラーの集合だと思って 中⼼化 & 基準化 (標準偏差で割る) • BERTs で過平滑化が起きる条件 − 層正規化 × 2 に⼊ってくる埋込の 標準偏差の最⼩値 𝜎!, 𝜎" が 𝜎!𝜎" > 1 − =層正規化に⼊ってくるどの埋込も 要素が⼗分バラついている A. BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 27 📄 Xiong+, On Layer NormalizaXon in the Transformer Architecture (ICML 2020) 複数のトークン埋込が同時に流れてくるので, トークン数だけ標準偏差が計算される 正確には,起きる⼗分条件 (𝑣 < 1) の近似 (𝑠 ≈ 0)

Slide 28

Slide 28 text

層正規化に⼊る埋込の標準偏差の最⼩値 𝝈𝟏 𝝈𝟐 と過平滑化現象には関係がありそう ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 28 • 層正規化に⼊る埋込の標準偏差の最⼩値 𝜎!𝜎" • cos 平均 どんな⽂ (トークン列) を⼊れても 𝜎#𝜎$ > 1 となる (=理論上過平滑化が起こりやすい) データ cos 平均 (実際の埋込の集中具合; ⻘線) が⼤きい =経験的にも過平滑化が強く起きる

Slide 29

Slide 29 text

⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 29 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 SKIP

Slide 30

Slide 30 text

⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 30 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列 の最⼤特異値 𝑠 ⾃⼰注意機構 の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 SKIP

Slide 31

Slide 31 text

⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 31 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列 の最⼤特異値 𝑠 ⾃⼰注意機構 の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 ≈ 1 𝜎2 𝜎3 NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと… 𝜎# 𝜎$ > 1 SKIP

Slide 32

Slide 32 text

⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 32 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列 の最⼤特異値 𝑠 ⾃⼰注意機構 の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 ≈ 1 𝜎2 𝜎3 NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと… 𝜎# 𝜎$ > 1 SKIP

Slide 33

Slide 33 text

𝝈𝟏 𝝈𝟐 はどこから降ってきました︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 33 • 層正規化の処理は3段階 1. ベクトルを引く −𝑚(𝒉) 2. 右から ! # 𝒉 diag(𝜸) をかける 3. ベクトルを⾜す +𝜷 • 上の 2 を 𝐻 に対する作⽤の形に書き換えると︓ − diag ! # 𝒉) , ! # 𝒉* , … 𝑯 diag 𝜸 • この作⽤の最⼤特異値 (縮退に⽀配的な係数) は,層正規化 にまとめて突っ込まれる 𝒉& たちの標準偏差 𝑠(𝒉&) の最⼩値 で決まる • ※ 復習したい⼈向けの注︓論⽂には陽に書かれていません − 𝑫%& という記号が出てくる式周辺をエスパーするとたぶんこう 📄 Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021) SKIP

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

まとめ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 35 • BERT は層を深くすると埋込同⼠がどんどん似てくる • 主結果︓BERTs の過平滑化のダイナミクスを [Oono&Suzuki,ICLRʼ20] [Huang+,arXivʼ20] に基づいて記述 − 基本的なアイデア︓点群の存在域が狭くなっていく様⼦を,個々の作 ⽤の最⼤固有値 (特異値) で押さえる − とくに,層正規化に⼊る埋込の標準偏差の最⼩値が⼤きい場合に過平 滑化が起きやすそう. 📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)

Slide 36

Slide 36 text

⾶ばした話 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 36 • モデル提案 − 後半層で over-smoothing しちゃうなら,前半層と後半層の表現を 同時に使えるように繋げば良いのでは︖ − → 過平滑化が緩和 − ※ 主結果で得られた話 (縮退は何に起因するのか,とくに縮退の肝は layer normalization っぽい) との繋がりはない提案