Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【ローカルAI LT大会】SSE: Stable Static Embedding ー速度低下...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

【ローカルAI LT大会】SSE: Stable Static Embedding ー速度低下を伴わず 静的埋め込みモデルの潜在能力を引き出す Dynamic Tanh手法の提案

SSE(Stable Static Embedding): Unlocking the Potential of Static Embeddings, A Dynamic Tanh Normalization Approach without Speed Penalty

Avatar for Rikka Botan

Rikka Botan

March 18, 2026

More Decks by Rikka Botan

Other Decks in Research

Transcript

  1. SSE: Stable Static Embedding ー速度低下を伴わず 静的埋め込みモデルの潜在能力を引き出す Dynamic Tanh手法の提案 SSE(Stable Static

    Embedding): Unlocking the Potential of Static Embeddings, A Dynamic Tanh Normalization Approach without Speed Penalty
  2. ◆趣味 お菓子作り・紅茶・クラシック鑑賞・お洋服 ◆最近の活動 Silver Award: Liquid AI Hackathon Series |

    Tokyo 記事執筆(Mamba, LFM2 (LTCs) 関連) 自己紹介 / About us 独立研究者(機械学習 / 代数学 / 数理論理学) Independent researcher (machine learning / algebra / mathematical logic) り っ か ぼ た ん 六花 牡丹 Rikka Botan X(Twitter) Portfolio
  3. 目録 / Contents 1 研究背景 / Introduction 2 手法・原理 /

    Method 3 評価・考察 / Evaluations 4 応用例 / Application
  4. ◆高速な検索の重要性 RAG(Retrieval-Augmented Generation)・推薦システム・社内ドキュメント検索 これらのシステムでは、数百万〜数十億の文書から関連情報を高速に取得する必要がある。 応答速度と検索精度の両立はユーザー体験に大きく影響を及ぼす。 多くのシステムでは、Retrieval + Rerankingという構成が取られる。 研究背景 /

    Introduction ◆関連研究 発表年 論文 / モデル 著者 特徴 2013 Word2Vec Tomas Mikolov et. al. Skip-gram / CBOW により単語を低次元ベクトルへ埋め込む手法。 単語共起を利用した最初期の大規模静的埋め込み。 2014 GloVe Jeffrey Pennington et. al. 単語共起行列の統計情報を用いた静的埋め込み。 Word2Vecと並ぶ代表的手法。 2019 Sentence-BERT Nils Reimers et. al Siamese構造のBERTで文埋め込みを生成。 (文ベクトルの類似度を学習)高品質だが推論コストが高い。 2024 Model2Vec MinishLab Sentence Transformerを蒸留して小型静的埋め込みモデルを 作成する手法。 2025 Static Retrieval MRL Tom Aarsen Token embedding を平均するだけの高速静的文埋め込み。 Matryoshka loss・対照学習。CPUで100〜400倍高速。
  5. 研究の視点 / Research perspective Question 学習手法の改良のみで、 静的埋め込みモデルのアーキテクチャは Word2Vecから変化していない。 Challenge アーキテクチャがシンプルで

    速度を低下させない改善が困難。 (表現力の高い演算の採用は困難) Idea モジュール単体による表現空間の制御ではなく、 学習機構・過程との相互作用を通じた表現空間の制御。
  6. ◆Separable DyT (Dynamic Tanh normalization) の導入とSSE (Stable Static Embedding) の構築

    手法・原理 / Method ◆Separable DyTによる勾配の制御と表現空間の汎化性向上 ▪Architecture ▪Algorithm 𝑦𝑘 = 𝑐𝑘 tanh 𝑎𝑘 𝑥𝑘 + 𝑏𝑘 𝜕𝑦𝑘 𝜕𝑥𝑘 = 𝑐𝑘 𝑎𝑘 sech2 𝑎𝑘 𝑥𝑘 + 𝑏𝑘 非飽和次元は維持 ൗ 𝜕yi 𝜕xi → 0 ( ai xi + bi ≫ 1) ൗ 𝜕yi 𝜕xi ≈ ci ai ( ai xi + bi < 1) 飽和次元の減衰 ノイズの大きい学習信号は減衰 安定した情報の学習信号は維持 明示的なハイパーパラメータなしで、 表現空間の汎化性能を高める 暗黙的な正則化
  7. 評価・考察 / Evaluations Comparison of (a) Loss and (b) Gradient

    Norm Across Training Steps. ➢ 学習後期においても勾配を維持し、継続的なパラメーターの更新
  8. 評価・考察 / Evaluations NanoBEIR mean nDCG@10 Across Training Steps. NanoBEIR

    English mean nDCG@10 vs Matryoshka Embedding Truncation. ➢ 学習プロセス後半・大きな埋め込み次元において一貫してベースラインを上回る。
  9. 評価・考察 / Evaluations (a) Retrieval performance (nDCG@10) across NanoBEIR English

    tasks. (b) Mean nDCG@10 vs. inference speed (QPS: queries per second) measured on TREC-COVID and Quora using an Intel® Core Ultra 7 265K (3.90 GHz) with batch size 32. ➢ 英語文書検索タスクにおいて、速度・精度のフロンティアに到達。
  10. 評価・考察 / Evaluations (a) Retrieval performance (nDCG@10) across NanoBEIR Japanese

    tasks. (b) Mean nDCG@10 vs. inference speed (QPS: queries per second) measured on Miracl using an Intel® Core Ultra 7 265K (3.90 GHz) with batch size 32. ➢ 日本語文書検索タスクにおいて、速度・精度のフロンティアに到達。
  11. 評価・考察 / Evaluations PCA Spectrum on the 13 NanoBEIR English

    Datasets: Normalized Eigenvalue Decay (a) Linear Scale, (b) Logarithmic Scale. SSEはより小さい次元サイズで固有値の減衰が観測された。 ➢ ノイズを抑制することで暗黙的に低ランク正則化(コンパクトな部分空間への情報集中)
  12. 16