Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【生成AIなんでも展示会vol.5 LT登壇】NexteraBERT発表資料

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Rikka Botan Rikka Botan
May 06, 2026
110

【生成AIなんでも展示会vol.5 LT登壇】NexteraBERT発表資料

双方向エンコーダーモデルをLFM2などで用いられている液体時間定数型のモジュールと、Gated Attention, Scalable Softmaxなどのモジュールを組み合わせて作成し、事前学習を行なったという内容です。ELECTRAのようなGeneratorとDiscriminatorを用いた学習を取り入れることで迅速な収束を示し、かつ推論速度の向上も確認されました。

Avatar for Rikka Botan

Rikka Botan

May 06, 2026

Transcript

  1. ◆趣味 お菓子作り・紅茶・クラシック鑑賞・お洋服 ◆最近の活動 Silver Award: Liquid AI Hackathon Series |

    Tokyo 記事執筆(Mamba, LFM2 (LTCs) 関連) SSE Modelシリーズの公開 自己紹介 / About us 独立研究者(機械学習 / 代数学 / 数理論理学) Independent researcher (machine learning / algebra / mathematical logic) り っ か ぼ た ん 六花 牡丹 Rikka Botan X(Twitter) Portfolio
  2. 目録 / Contents 1 これまでの研究について / Introduction 2 3 4

    評価・考察 / Evaluations 手法・原理 / Method モデル構築の考え方 / Architecture
  3. はじめに / Firstly での発表とその成果 ◆Separable DyTによる勾配の制御と表現空間の汎化性向上 ▪Architecture ▪Algorithm 𝑦𝑘 =

    𝑐𝑘 tanh 𝑎𝑘 𝑥𝑘 + 𝑏𝑘 𝜕𝑦𝑘 𝜕𝑥𝑘 = 𝑐𝑘 𝑎𝑘 sech2 𝑎𝑘 𝑥𝑘 + 𝑏𝑘 非飽和次元は維持 ൗ 𝜕yi 𝜕xi → 0 ( ai xi + bi ≫ 1) ൗ 𝜕yi 𝜕xi ≈ ci ai ( ai xi + bi < 1) 飽和次元の減衰 ノイズの大きい学習信号は減衰 安定した情報の学習信号は維持 明示的なハイパーパラメータなしで、 表現空間の汎化性能を高める 暗黙的な正則化
  4. モデル構築の考え方 / Architecture 【1】Gated Attention Self AttentionにGatingを追加するだけで Attention Sinkを抑制し性能改善 Zihan

    Qiu et al., “Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free”, arXiv:2505.06708, 10 May 2025 【2】Scalable Softmax QK matrixに系列長に応じたスケーリングを 行うことで長距離文脈での性能を改善 Ken M. Nakanishi, “Scalable-Softmax Is Superior for Attention”, arXiv:2501.19399, 31 Jan 2025 【3】LFMs: Liquid Foundation Models 液体時間定数型微分方程式からの着想で 世界最高クラスの効率となるモデルを構築 LiquidAI team, “LFM2 Technical Report”, arXiv:2511.23404, 28 Nov 2025 Perspective 最新の研究成果を用いることで、 高速化と高精度化が可能ではないか? Challenge モダンなSelf Attention機構を ライブラリ側の最適化を 阻害しない形で統合を行い、 線形モデリングと組み合わせる。 Idea 数学的に等価な式に変形し統合 + 線形モデリングにおける 係数の非線形性改善 ・畳み込み演算の効率改善 ◆先行研究
  5. ▪モデルのアーキテクチャ モデル構築の考え方 / Architecture T’1 T’2 T’3 T’4 T’5 T’6

    T’7 T1 T2 T3 T4 T5 T6 T7 Embedding to vocab Embedding Encoder Block Multi Layer Perceptron Nextera Self Attention Normalization Normalization Normalization Normalization ×N Liquid Convolution Module or ▪原理 Nextera Self Attention Scalable Softmax Gated Attention Separable DyT QK norm Nextera Self Atention(𝑞, 𝑘, 𝑣, 𝑔) = 𝑔 ∗ SSMax 𝑛𝑜𝑟𝑚(𝑞)𝑛𝑜𝑟𝑚(𝑘)𝑇 𝑑 𝑣 長距離文脈理解を強化 ➢ 線形モデリングの比率を高めても性能が悪化しづらい。 ➢ さらなる高速化が可能
  6. ▪Scalable Softmaxを等価な式に変形・ライブラリに最適化を吸収 手法・原理 / Method ▪Scalable Softmaxを用いる課題:CUDA / Flash Attentionにおけるカーネル最適化の崩壊

    ➢ カーネルの最適化上、Softmax関数自体を書き換えられない。 ➢ PyTorchのscaleはfloatの固定値のみしか使えない(カーネル最適化の都合) 𝑎𝑛 = SSMax 𝑞𝑛 𝐾1:𝑛 𝑇 𝑑 = Softmax 𝑞𝑛 𝐾1:𝑛 𝑇 ds 𝑜𝑛 = 𝑎𝑛 𝑣𝑛 𝑞𝑛 ∗ = (𝑠 𝑙𝑜𝑔 𝑛)𝑞𝑛 ds = d 𝑠 𝑙𝑜𝑔 𝑛 Self Atention with SSMax (𝑞𝑛 , 𝐾1:𝑛 𝑇 , 𝑣𝑛 , 𝑑) = Softmax 𝑞𝑛 ∗ 𝐾1:𝑛 𝑇 𝑑 𝑣𝑛 ➢ 軽量な計算の追加のみで実装可能 ➢ カーネル最適化を阻害しない。 と定義すると Scalable Softmaxおけるスケールが各時刻においてスカラーであり、 交換可能であることを利用。QK matrixへの演算をQueryへの演算と再解釈。
  7. ▪SnowLily: Snow Storm Conv + Liquid Layer by time-enhanced dynamical

    adaptation 非線形性・演算効率を改善した液体時間定数型モジュール 手法・原理 / Method
  8. ▪LFM: Liquid Foundation ModelをLTCs: Liquid Time-constant Networksとして解釈 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥𝑗 )

    = 𝐶(𝑡𝑗 ) ∙ ෍ 𝑖=𝑗−𝑘 𝑗 𝐵𝑗 (𝑡𝑗 ) ∙ 𝑥𝑗 = 𝐶 ∙ ෍ 𝑖=0 𝑘 𝐵𝑗−𝑖 (𝑡𝑗 ) ∙ 𝑥𝑗−𝑖 𝑥𝑗 = 𝑥(𝑡𝑗 ), 𝑥𝑗−𝑖 = 𝑥(𝑡𝑗 − 𝑖∆𝑡) 𝑥(𝑡𝑗 − 𝑖∆𝑡) = 𝑥(𝑡𝑗 ) − 𝑖∆𝑡 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) + (𝑖∆𝑡)2 2 𝑑2𝑥 𝑑𝑡2 (𝑡𝑗 ) − ⋯ 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) ≈ 𝐶(𝑡𝑗 ) ෍ 𝑖=0 𝑘 𝐵𝑗−𝑖 (𝑡𝑗 ) ∙ 𝑥(𝑡𝑗 ) − ෍ 𝑖=0 𝑘 𝑖∆𝑡 ∙ 𝐵𝑗−𝑖 (𝑡𝑗 ) 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) 𝛾 = ෍ 𝑖=0 𝑘 𝐵𝑗−𝑖 (𝑡𝑗 ) , 𝜏 = ෍ 𝑖=0 𝑘 𝑖∆𝑡 ∙ 𝐵𝑗−𝑖 (𝑡𝑗 ) 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) ≈ 𝛾 𝜏 𝑥(𝑡𝑗 ) − 1 𝐶(𝑡𝑗 )𝜏 𝐿𝐹𝑀2 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) ここで、テイラー展開より、 二次以降の項を無視して近似すると、 ここで、 とおくと、 ➢ LTCsの式の特殊形になる。 この記事を参照 手法・原理 / Method
  9. ▪解釈の問題点 𝐵𝑗 (𝑡𝑗 ) = 𝐶𝑜𝑛𝑣(𝑥(𝑡𝑗 )) = ෍ 𝑖=0

    1 𝐵𝑗−𝑖 ∗ ∙ 𝑥𝑗−𝑖 = 𝐵𝑗 ∗ ∙ 𝑥(𝑡𝑗 ) + 𝐵𝑗−1 ∗ ∙ 𝑥(𝑡𝑗−1 ) ≈ 𝐵𝑗 ∗∗ ∙ 𝑥(𝑡𝑗 ) + 𝛽𝑗 ∗∗ ∙ 𝑑𝑥 𝑑𝑡 (𝑡𝑗 ) ▪本モデルでの工夫 ➢ テーラー展開での近似を2次の項まで擬似的に行うことが可能。 ➢ しかし、演算が重くなる・・・ ➢ 畳み込み演算を状態空間モデルとして捉えなおすことで効率化 テイラー展開で二次以降の項を無視している。 ➢ 潜在表現が大きな値を持つ場合に近似が成り立たず、性能悪化が起こる可能性がある。 ➢ 入力の表現に依存して性能が変化する。 (係数の正定値性についてはSLC2における確率的に制御する手法を踏襲) 係数Bを過去の潜在表現に依存するように変更 ➢ 擬似的に2次の項を導入し非線形性を改善 この記事を参照 手法・原理 / Method
  10. ▪Depthwise Separable Convolutionの状態空間モデルとしての解釈 ▪I/Oを削減し演算を効率化・Low Rankな状態空間を持つシステムとして定義 ➢ 係数固定である一般的な状態空間モデルとして解釈可能 (表現力の向上) ➢ I/Oが少なく、効率的に演算可能

    ➢ 状態空間の次元が1であり、係数固定である状態空間モデル(LTI:Linear Time Invariance)の集合 𝐷𝑒𝑝𝑡ℎ𝑤𝑖𝑠𝑒 𝑆𝑒𝑝𝑎𝑟𝑎𝑏𝑙𝑒 𝐶𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛(𝑥) = 𝐶𝑎𝑡(𝐿𝑇𝐼(𝑥𝑖 )) ➢ 計算は軽量だが、表現力には劣る。 ➢ メモリのコピーが多く、GPUでは低速 (I/Oがボトルネック) 手法・原理 / Method
  11. ▪実験設定 評価・考察 / Evaluations ELECTRAの学習方式(Generator, Discriminatorによる生成と識別)を採用 Architecture: NexteraBERT(オリジナルのアーキテクチャ) Attention :

    Lily ≒ 1 : 3 (レイヤー構成はLFM2.5を参考に構成 前半:線形モデル支配的(70%)、後半:バランス混合(50%&50%)) Generator: Tiny model (hidden size: 384, Parameters: 41M (w/o Emb: 22M)) Discriminator: Base model (hidden size: 768, Parameters: 160M (w/o Emb: 121M)) Mask Ratio: 30% (ModernBERTを参照) Distributed Training Library: Composer (MosaicML) GPU: A100 Optimizer: Decoupled AdamW (betas=(0.9. 0.98), lr=8e-4) (ModernBERTを参照) Discriminator Lambda: 5.0 Micro Batch Size: 16 Global Batch Size: 512 Dataset: Fineweb Edu
  12. ▪実験結果 評価・考察 / Evaluations わずか5k stepで良好な性能を示した。 (Discriminator Acc≒0.865, Generator Acc≒0.505)

    ➢ GLUE・SuperGLUE・NanoBEIRなどでの評価は今後実施予定 事前学習におけるTraining Loss (Generator Loss + Discriminator Lambda * Discriminator Loss) 15 14 13 12 11 10 9 8 7 6 5 0 1k 2k 3k 4k 5k Discriminatorの正解率 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0 1k 2k 3k 4k 5k GeneratorのMLMタスク正解率 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0 1k 2k 3k 4k 5k
  13. ▪推論速度比較(ModernBERT: 149M, NexteraBERT: 160M) 評価・考察 / Evaluations ➢ シーケンス長が長い条件において、CPU・GPU環境ともにNexteraBERTは高速な推論を可能にする。 CPU(Intel®

    Core Ultra 7 265K (3.90 GHz))における 各シーケンス長での推論時間 GPU(RTX 5080)における 各シーケンス長での推論時間 1.4x faster 1.7x faster
  14. 17