【生成AIなんでも展示会vol.5 LT登壇】NexteraBERT発表資料

NexteraBERT：液体時間定数型モジュール及びモダンなSelf Attention機構、Separable DyTによる双方向エンコーダーモデルの再考 NexteraBERT: Rethinking Bidirectional Encoder
Models with Liquid Time-Constant Modules, Modern Self-Attention, and Separable Dynamic Tanh normalization

生成AIなんでも展示会 Vol.5

◆趣味お菓子作り・紅茶・クラシック鑑賞・お洋服 ◆最近の活動 Silver Award: Liquid AI Hackathon Series |
Tokyo 記事執筆（Mamba, LFM2 (LTCs) 関連） SSE Modelシリーズの公開自己紹介 / About us 独立研究者（機械学習 / 代数学 / 数理論理学） Independent researcher (machine learning / algebra / mathematical logic) りっかぼたん六花牡丹 Rikka Botan X(Twitter) Portfolio

目録 / Contents 1 これまでの研究について / Introduction 2 3 4
評価・考察 / Evaluations 手法・原理 / Method モデル構築の考え方 / Architecture

はじめに / Firstly での発表とその成果 Separable DyTというオリジナルのモジュールを用いた、SSE: Stable Static Embeddingを提案し、世界最高クラスの水準、新たなフロンティアとなる静的埋め込みモデルを開発
日本語検索タスク(NanoBEIR)での処理速度と性能英語検索タスク(NanoBEIR)での処理速度と性能

はじめに / Firstly での発表とその成果 ◆Separable DyTによる勾配の制御と表現空間の汎化性向上 ▪Architecture ▪Algorithm 𝑦𝑘 =
𝑐𝑘 tanh 𝑎𝑘 𝑥𝑘 + 𝑏𝑘 𝜕𝑦𝑘 𝜕𝑥𝑘 = 𝑐𝑘 𝑎𝑘 sech2 𝑎𝑘 𝑥𝑘 + 𝑏𝑘 非飽和次元は維持 ൗ 𝜕yi 𝜕xi → 0 ( ai xi + bi ≫ 1) ൗ 𝜕yi 𝜕xi ≈ ci ai ( ai xi + bi < 1) 飽和次元の減衰ノイズの大きい学習信号は減衰安定した情報の学習信号は維持明示的なハイパーパラメータなしで、表現空間の汎化性能を高める暗黙的な正則化

モデル構築の考え方 / Architecture 【1】Gated Attention Self AttentionにGatingを追加するだけで Attention Sinkを抑制し性能改善 Zihan
Qiu et al., “Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free”, arXiv:2505.06708, 10 May 2025 【2】Scalable Softmax QK matrixに系列長に応じたスケーリングを行うことで長距離文脈での性能を改善 Ken M. Nakanishi, “Scalable-Softmax Is Superior for Attention”, arXiv:2501.19399, 31 Jan 2025 【3】LFMs: Liquid Foundation Models 液体時間定数型微分方程式からの着想で世界最高クラスの効率となるモデルを構築 LiquidAI team, “LFM2 Technical Report”, arXiv:2511.23404, 28 Nov 2025 Perspective 最新の研究成果を用いることで、高速化と高精度化が可能ではないか？ Challenge モダンなSelf Attention機構をライブラリ側の最適化を阻害しない形で統合を行い、線形モデリングと組み合わせる。 Idea 数学的に等価な式に変形し統合＋線形モデリングにおける係数の非線形性改善・畳み込み演算の効率改善 ◆先行研究

▪モデルのアーキテクチャモデル構築の考え方 / Architecture T’1 T’2 T’3 T’4 T’5 T’6
T’7 T1 T2 T3 T4 T5 T6 T7 Embedding to vocab Embedding Encoder Block Multi Layer Perceptron Nextera Self Attention Normalization Normalization Normalization Normalization ×N Liquid Convolution Module or ▪原理 Nextera Self Attention Scalable Softmax Gated Attention Separable DyT QK norm Nextera Self Atention(𝑞, 𝑘, 𝑣, 𝑔) = 𝑔 ∗ SSMax 𝑛𝑜𝑟𝑚(𝑞)𝑛𝑜𝑟𝑚(𝑘)𝑇 𝑑 𝑣 長距離文脈理解を強化 ➢ 線形モデリングの比率を高めても性能が悪化しづらい。 ➢ さらなる高速化が可能

▪Scalable Softmaxを等価な式に変形・ライブラリに最適化を吸収手法・原理 / Method ▪Scalable Softmaxを用いる課題：CUDA / Flash Attentionにおけるカーネル最適化の崩壊
➢ カーネルの最適化上、Softmax関数自体を書き換えられない。 ➢ PyTorchのscaleはfloatの固定値のみしか使えない（カーネル最適化の都合） 𝑎𝑛 = SSMax 𝑞𝑛 𝐾1:𝑛 𝑇 𝑑 = Softmax 𝑞𝑛 𝐾1:𝑛 𝑇 ds 𝑜𝑛 = 𝑎𝑛 𝑣𝑛 𝑞𝑛 ∗ = (𝑠 𝑙𝑜𝑔 𝑛)𝑞𝑛 ds = d 𝑠 𝑙𝑜𝑔 𝑛 Self Atention with SSMax (𝑞𝑛 , 𝐾1:𝑛 𝑇 , 𝑣𝑛 , 𝑑) = Softmax 𝑞𝑛 ∗ 𝐾1:𝑛 𝑇 𝑑 𝑣𝑛 ➢ 軽量な計算の追加のみで実装可能 ➢ カーネル最適化を阻害しない。と定義すると Scalable Softmaxおけるスケールが各時刻においてスカラーであり、交換可能であることを利用。QK matrixへの演算をQueryへの演算と再解釈。

▪SnowLily: Snow Storm Conv + Liquid Layer by time-enhanced dynamical
adaptation 非線形性・演算効率を改善した液体時間定数型モジュール手法・原理 / Method

▪LFM: Liquid Foundation ModelをLTCs: Liquid Time-constant Networksとして解釈 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥𝑗 )
= 𝐶(𝑡𝑗 ) ∙ ෍ 𝑖=𝑗−𝑘 𝑗 𝐵𝑗 (𝑡𝑗 ) ∙ 𝑥𝑗 = 𝐶 ∙ ෍ 𝑖=0 𝑘 𝐵𝑗−𝑖 (𝑡𝑗 ) ∙ 𝑥𝑗−𝑖 𝑥𝑗 = 𝑥(𝑡𝑗 ), 𝑥𝑗−𝑖 = 𝑥(𝑡𝑗 − 𝑖∆𝑡) 𝑥(𝑡𝑗 − 𝑖∆𝑡) = 𝑥(𝑡𝑗 ) − 𝑖∆𝑡 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) + (𝑖∆𝑡)2 2 𝑑2𝑥 𝑑𝑡2 (𝑡𝑗 ) − ⋯ 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) ≈ 𝐶(𝑡𝑗 ) ෍ 𝑖=0 𝑘 𝐵𝑗−𝑖 (𝑡𝑗 ) ∙ 𝑥(𝑡𝑗 ) − ෍ 𝑖=0 𝑘 𝑖∆𝑡 ∙ 𝐵𝑗−𝑖 (𝑡𝑗 ) 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) 𝛾 = ෍ 𝑖=0 𝑘 𝐵𝑗−𝑖 (𝑡𝑗 ) , 𝜏 = ෍ 𝑖=0 𝑘 𝑖∆𝑡 ∙ 𝐵𝑗−𝑖 (𝑡𝑗 ) 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) ≈ 𝛾 𝜏 𝑥(𝑡𝑗 ) − 1 𝐶(𝑡𝑗 )𝜏 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) ここで、テイラー展開より、二次以降の項を無視して近似すると、ここで、とおくと、 ➢ LTCsの式の特殊形になる。この記事を参照手法・原理 / Method

▪解釈の問題点 𝐵𝑗 (𝑡𝑗 ) = 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) = ෍ 𝑖=0
1 𝐵𝑗−𝑖 ∗ ∙ 𝑥𝑗−𝑖 = 𝐵𝑗 ∗ ∙ 𝑥(𝑡𝑗 ) + 𝐵𝑗−1 ∗ ∙ 𝑥(𝑡𝑗−1 ) ≈ 𝐵𝑗 ∗∗ ∙ 𝑥(𝑡𝑗 ) + 𝛽𝑗 ∗∗ ∙ 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) ▪本モデルでの工夫 ➢ テーラー展開での近似を２次の項まで擬似的に行うことが可能。 ➢ しかし、演算が重くなる・・・ ➢ 畳み込み演算を状態空間モデルとして捉えなおすことで効率化テイラー展開で二次以降の項を無視している。 ➢ 潜在表現が大きな値を持つ場合に近似が成り立たず、性能悪化が起こる可能性がある。 ➢ 入力の表現に依存して性能が変化する。（係数の正定値性についてはSLC2における確率的に制御する手法を踏襲）係数Bを過去の潜在表現に依存するように変更 ➢ 擬似的に2次の項を導入し非線形性を改善この記事を参照手法・原理 / Method

▪Depthwise Separable Convolutionの状態空間モデルとしての解釈 ▪I/Oを削減し演算を効率化・Low Rankな状態空間を持つシステムとして定義 ➢ 係数固定である一般的な状態空間モデルとして解釈可能（表現力の向上） ➢ I/Oが少なく、効率的に演算可能
➢ 状態空間の次元が1であり、係数固定である状態空間モデル(LTI：Linear Time Invariance)の集合 𝐷𝑒𝑝𝑡ℎ𝑤𝑖𝑠𝑒 𝑆𝑒𝑝𝑎𝑟𝑎𝑏𝑙𝑒 𝐶𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛(𝑥) = 𝐶𝑎𝑡(𝐿𝑇𝐼(𝑥𝑖 )) ➢ 計算は軽量だが、表現力には劣る。 ➢ メモリのコピーが多く、GPUでは低速（I/Oがボトルネック）手法・原理 / Method

▪実験設定評価・考察 / Evaluations ELECTRAの学習方式(Generator, Discriminatorによる生成と識別)を採用 Architecture: NexteraBERT（オリジナルのアーキテクチャ） Attention :
Lily ≒ 1 : 3 (レイヤー構成はLFM2.5を参考に構成前半：線形モデル支配的(70%)、後半：バランス混合（50%&50%）) Generator: Tiny model (hidden size: 384, Parameters: 41M (w/o Emb: 22M)) Discriminator: Base model (hidden size: 768, Parameters: 160M (w/o Emb: 121M)) Mask Ratio: 30% (ModernBERTを参照) Distributed Training Library: Composer (MosaicML) GPU: A100 Optimizer: Decoupled AdamW (betas=(0.9. 0.98), lr=8e-4) (ModernBERTを参照) Discriminator Lambda: 5.0 Micro Batch Size: 16 Global Batch Size: 512 Dataset: Fineweb Edu

▪実験結果評価・考察 / Evaluations わずか5k stepで良好な性能を示した。（Discriminator Acc≒0.865, Generator Acc≒0.505）
➢ GLUE・SuperGLUE・NanoBEIRなどでの評価は今後実施予定事前学習におけるTraining Loss (Generator Loss + Discriminator Lambda * Discriminator Loss) 15 14 13 12 11 10 9 8 7 6 5 0 1k 2k 3k 4k 5k Discriminatorの正解率 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0 1k 2k 3k 4k 5k GeneratorのMLMタスク正解率 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0 1k 2k 3k 4k 5k

▪推論速度比較（ModernBERT: 149M, NexteraBERT: 160M）評価・考察 / Evaluations ➢ シーケンス長が長い条件において、CPU・GPU環境ともにNexteraBERTは高速な推論を可能にする。 CPU(Intel®
Core Ultra 7 265K (3.90 GHz))における各シーケンス長での推論時間 GPU(RTX 5080)における各シーケンス長での推論時間 1.4x faster 1.7x faster

【生成AIなんでも展示会vol.5 LT登壇】NexteraBERT発表資料

【生成AIなんでも展示会vol.5 LT登壇】NexteraBERT発表資料

Rikka Botan

More Decks by Rikka Botan

Featured

Transcript

NexteraBERT：液体時間定数型モジュール及びモダンなSelf Attention機構、Separable DyTによる双方向エンコーダーモデルの再考 NexteraBERT: Rethinking Bidirectional Encoder

生成AIなんでも展示会 Vol.5

◆趣味お菓子作り・紅茶・クラシック鑑賞・お洋服 ◆最近の活動 Silver Award: Liquid AI Hackathon Series |

目録 / Contents 1 これまでの研究について / Introduction 2 3 4

はじめに / Firstly での発表とその成果 Separable DyTというオリジナルのモジュールを用いた、SSE: Stable Static Embeddingを提案し、世界最高クラスの水準、新たなフロンティアとなる静的埋め込みモデルを開発

はじめに / Firstly での発表とその成果 ◆Separable DyTによる勾配の制御と表現空間の汎化性向上 ▪Architecture ▪Algorithm 𝑦𝑘 =

モデル構築の考え方 / Architecture 【1】Gated Attention Self AttentionにGatingを追加するだけで Attention Sinkを抑制し性能改善 Zihan

▪モデルのアーキテクチャモデル構築の考え方 / Architecture T’1 T’2 T’3 T’4 T’5 T’6

▪Scalable Softmaxを等価な式に変形・ライブラリに最適化を吸収手法・原理 / Method ▪Scalable Softmaxを用いる課題：CUDA / Flash Attentionにおけるカーネル最適化の崩壊

▪SnowLily: Snow Storm Conv + Liquid Layer by time-enhanced dynamical

▪LFM: Liquid Foundation ModelをLTCs: Liquid Time-constant Networksとして解釈 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥𝑗 )

▪解釈の問題点 𝐵𝑗 (𝑡𝑗 ) = 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) = ෍ 𝑖=0

▪実験設定評価・考察 / Evaluations ELECTRAの学習方式(Generator, Discriminatorによる生成と識別)を採用 Architecture: NexteraBERT（オリジナルのアーキテクチャ） Attention :

▪実験結果評価・考察 / Evaluations わずか5k stepで良好な性能を示した。（Discriminator Acc≒0.865, Generator Acc≒0.505）

▪推論速度比較（ModernBERT: 149M, NexteraBERT: 160M）評価・考察 / Evaluations ➢ シーケンス長が長い条件において、CPU・GPU環境ともにNexteraBERTは高速な推論を可能にする。 CPU(Intel®

17