Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sequences of Logits Reveal the Low Rank Structu...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Sequences of Logits Reveal the Low Rank Structure of Language Models

■ イベント
ICLR 2026 論文読会
https://sansan.connpass.com/event/386298/

■ 発表者
技術本部 研究開発部 Data Analysisグループ
山内 敏嗣

■ 技術本部 採用情報
https://media.sansan-engineering.com

Avatar for SansanTech

SansanTech PRO

March 25, 2026
Tweet

More Decks by SansanTech

Other Decks in Research

Transcript

  1. 写真が入ります 山内 敏嗣 Sansan 株式会社 技術本部 研究開発部 Data Analysisグループ 研究員

    京都大学大学院工学研究科電気工学専攻修士課程修了。 在学中は制御理論研究に取り組む。自動車メーカーでの品質保証 業務を経た後、制御システムベンダーでベイズ統計や機械学習を 活用した多変量時系列データ向けのアルゴリズム研究開発に従事。 現在は契約書データ化のためのVLMの研究開発に取り組む。
  2. - 単語埋め込みに線形関係があるという仮説が研究されている。有名な例として、 「boy - girl ≈ king - queen」がある。 -

    では、異なるプロンプトprompt𝑖 に対するLLMの出力ロジットlogit𝑖 に、 以下のような線形関係が成立するか? logit1 ≈ 𝑣2 ∙ logit2 + 𝑣3 ∙ logit3 + 𝑣4 ∙ logit4 - もし成立するなら、有害プロンプトを入力せずに 同じ応答を生成できて しまう可能性がある。つまり、入力フィルタを回避できる可能性がある。 背景 LLM logit𝑖 prompt𝑖
  3. - 目的のプロンプトを用いた生成(既存手法) - 目的のプロンプトを用いない生成(LINGEN) - 無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを 再現するアルゴリズム。 既存手法とLINGENの違い 爆弾の作り方を教えて まず材料は

    ニトロ LLM LLM 明日の朝には まず材料は 犯人は20代 まず材料は 健康に気を まず材料は ⋮ logit1 logit2 logit𝐻 ⋮ logit softmax 線 形 結 合 ニトロ logit softmax 途中までの生成結果 プロンプト 次の生成結果 ロジットベクトル
  4. - LINGENのような手法では何が起こっているのか?数学的に考えてみる。 - そのために、いくつか表記を定義する。 - 言語モデル𝑀 - プロンプトℎ、目的のプロンプトℎtarg 、別のプロンプトの集合 ℎ1

    , … , ℎ𝐻 - 𝑡 − 1step分の生成結果𝑧1:𝑡−1 - Nextトークンのロジットベクトル𝐿𝑀 ∙ |ℎ ∘ 𝑧1:𝑡−1 ∈ ℝΣ 数式で考えると?
  5. - 目的のプロンプトを用いた生成(既存手法) - 目的のプロンプトを用いない生成(LINGEN) 数式で考えると? ℎtarg 𝑧1:𝑡−1 𝑧𝑡 モデル𝑀 モデル𝑀

    ℎ1 𝑧1:𝑡−1 ℎ2 𝑧1:𝑡−1 ℎ𝐻 𝑧1:𝑡−1 ⋮ 𝐿𝑀 ∙ |ℎ1 ∘ 𝑧1:𝑡−1 𝐿𝑀 ∙ |ℎ2 ∘ 𝑧1:𝑡−1 𝐿𝑀 ∙ |ℎ𝐻 ∘ 𝑧1:𝑡−1 ⋮ 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 softmax 線 形 結 合 𝑧𝑡 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 softmax
  6. - LINGENはℎtarg ∉ ℎ1 , … , ℎ𝐻 に対し、以下の成立を前提としている。 𝐿𝑀

    ∙ |ℎtarg ∘ 𝑧1:𝑡−1 = ෍ 𝑖=1 𝐻 𝑣𝑖 ∙ 𝐿𝑀 ∙ |ℎ𝑖 ∘ 𝑧1:𝑡−1 ⟺ 0 = 𝑣1 … 𝑣𝐻 −1 ∙ 𝐿𝑀 ∙ |ℎ1 ∘ 𝑧1:𝑡−1 ⋮ 𝐿𝑀 ∙ |ℎ𝐻 ∘ 𝑧1:𝑡−1 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 ⟺ 0 = 𝑣𝑇 ∙ ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 - ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 をロジット行列と呼び、行はプロンプト ℎ に対応し、 列は𝑡 − 1stepまでの生成結果が𝑧1:𝑡−1 で次に生成されるトークン𝑧𝑡 のロジット。 数式で考えると?
  7. ロジット行列のイメージ −0.1 −0.3 −0.4 −0.1 −0.3 −0.2 −0.5 −0.2 ⋮

    ⋮ ⋮ ⋮ −0.8 −0.6 −0.1 −0.3 −0.001 −0.7 −0.8 −0.5 ℎ1 :明日の朝には ℎ2 :犯人は20代 ℎ𝑡𝑎𝑟𝑔 :爆弾の作り方を教えて ℎ𝐻 :健康に気を ニトロ 男性 学校 ⋯ ⋮ 生成結果を「まず材料は」とした場合のNextトークンのロジット
  8. - 以下が成立すれば、目的のプロンプトℎtarg と生成結果𝑧1:𝑡−1 の続き𝑧𝑡 を、 無意味なプロンプト ℎ1 , … ,

    ℎ𝐻 の出力の線形結合で、再現できる。 𝑣𝑇 ∙ ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 = 0 - ただし上記は、想定している生成結果が𝑧1:𝑡−1 のみに限定されている。 - これを任意の生成結果を想定したものに拡張する。 ロジット行列を任意のプロンプトや生成結果に拡張する
  9. ℒ𝑀 ℋ, ℱ ≔ 𝐿𝑀 𝑧|ℎ1 ∘ 𝑓1 𝑧∈Σ ⋯

    𝐿𝑀 𝑧|ℎ1 ∘ 𝑓𝐹 𝑧∈Σ ⋮ ⋱ ⋮ 𝐿𝑀 𝑧|ℎ𝐻 ∘ 𝑓1 𝑧∈Σ ⋯ 𝐿𝑀 𝑧|ℎ𝐻 ∘ 𝑓𝐹 𝑧∈Σ ∈ ℝℋ× ℱ×Σ - 各表記の意味 > 言語モデルを構成する全トークン集合: Σ > 想定されるプロンプトℋ = ℎ1 , … , ℎ𝐻 , 現時点までの生成結果ℱ = 𝑓1 , … , 𝑓𝐹 拡張ロジット行列 ℎ1 :明日の朝には ℎ𝑡𝑎𝑟𝑔 :爆弾の作り方を教えて ℎ𝐻 :健康に気を ⋯ ⋮ ロジット行列 ロジット行列 ロジット行列 𝑓1 :まず材料は 𝑓3 :まず材料はニトロ 𝑓2 :つけて
  10. - 拡張ロジット行列ℒ𝑀 ℋ, ℱ が低ランクである。 - 𝑣𝑇 ∙ ℒ𝑀 ℋ,

    ℱ = 0を満たす非零ベクトル𝑣 ∈ ℝℋの空間がある。つまり、 異なるプロンプトの出力ロジットに線形関係がある。 - LINGENは実現可能である。つまり、プロンプトℎtarg に対する推論について、 以下が成立するような𝑣を作れる。 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 = ℒ𝑀 ℎtarg , 𝑧1:𝑡−1 ≈ 𝑣𝑇 ∙ ℒ𝑀 ℋ, 𝑧1:𝑡−1 拡張ロジット行列の低ランク性とLINGEN ℎtarg を用いた生成(既存手法) ℎtarg を用いない生成(LINGEN) ⇓ ⇓
  11. - では、拡張ロジット行列は実際に低ランクになるのか? - それを確認するために、拡張ロジット行列の特異値計測の実験を行った。 - 実験設定 > データセット𝐷:wiki (他に追加で4種類のデータでも検証) >

    モデル𝑀:OLMo-1b, OLMo-7b(他に追加で3種類のモデルでも検証) > プロンプト集合ℋ、現時点までの生成結果集合ℱ:𝐷から𝑛個(最大で104)抽出し 各サンプルをランダム分割しℋ, ℱに割り当てる > 実用上の観点から、各𝑓に対しPr𝑀 𝑧|𝑓 の値top50の列のみを選択した部分行列 ℒ𝑀,50 ℋ, ℱ ∈ ℝℋ× ℱ×50 を扱う。 ロジット行列を解析するための実験設定
  12. - 横軸を特異値を降順にした時のindex 𝑖とし、縦軸を特異値σ𝑖 としてプロットした。 - σ𝑖 ≈ 𝐶 ∙ 𝑖−𝛼

    で減衰する傾向が確認された。ここで、 𝐶, 𝛼 > 0は定数である。 また、ほとんどのモデルで𝛼 > 1/2となった。 - 𝛼 > 1/2なら定数ランクで近似可能となる ことが理論的に示せる。 - ロジット行列をダウンサンプルしてサイズを 変えてもべき乗則は保持されている。 - ℋ, ℱのスケールを大きくしても、ロジット行列 の低ランク近似が成立すると考えられる。 ロジット行列の特異値
  13. - 実験設定 > 前述のプロンプト集合ℋ、現時点までの生成結果集合ℱとは重複しないように、 目的のプロンプトℎtarg をwikiからサンプリングした。 > 係数𝑣はℒ𝑀 ℋ, ℱ

    をℒ𝑀 ℎtarg , ℱ に回帰させて推定した。 - 評価指標 > 真のモデルの生成結果との誤差として、真のモデルの生成結果とのトークン単位 のKLダイバージェンスを用いた。 LINGENによる生成実験
  14. LINGENの実験結果(定性評価) - 目的のプロンプト(灰色)とLINGEN の生成結果(黒)が右表である。 - プロンプトの文脈に沿って、艦、少将、 地中海などの話が生成されている。 - 以下の可能性が示唆される。 >

    元のプロンプトとは無関係な系列についてのみ言語モデルに クエリを実行するだけで、元のプロンプトの続きを生成できる。 > 入力フィルタを回避して有害プロンプトの応答を引き出す。