Sequences of Logits Reveal the Low Rank Structure of Language Models

Sansan株式会社技術本部研究開発部 DataAnalysisグループ山内敏嗣 Sequences of Logits Reveal the
Low Rank Structure of Language Models ICLR2026 論文読会

写真が入ります山内敏嗣 Sansan 株式会社技術本部研究開発部 Data Analysisグループ研究員
京都大学大学院工学研究科電気工学専攻修士課程修了。在学中は制御理論研究に取り組む。自動車メーカーでの品質保証業務を経た後、制御システムベンダーでベイズ統計や機械学習を活用した多変量時系列データ向けのアルゴリズム研究開発に従事。現在は契約書データ化のためのVLMの研究開発に取り組む。

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果
- まとめアジェンダ

- 単語埋め込みに線形関係があるという仮説が研究されている。有名な例として、「boy - girl ≈ king - queen」がある。 -
では、異なるプロンプトprompt𝑖 に対するLLMの出力ロジットlogit𝑖 に、以下のような線形関係が成立するか？ logit1 ≈ 𝑣2 ∙ logit2 + 𝑣3 ∙ logit3 + 𝑣4 ∙ logit4 - もし成立するなら、有害プロンプトを入力せずに同じ応答を生成できてしまう可能性がある。つまり、入力フィルタを回避できる可能性がある。背景 LLM logit𝑖 prompt𝑖

- 本論文の主な貢献は以下の２つである。 > LLMの出力(ロジット)の行列の低ランク構造を解明した。 > 無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを再現することを可能とするアルゴリズム（LINGEN）を導出した。本論文の貢献

- 目的のプロンプトを用いた生成（既存手法） - 目的のプロンプトを用いない生成（LINGEN） - 無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを再現するアルゴリズム。既存手法とLINGENの違い爆弾の作り方を教えてまず材料は
ニトロ LLM LLM 明日の朝にはまず材料は犯人は20代まず材料は健康に気をまず材料は ⋮ logit1 logit2 logit𝐻 ⋮ logit softmax 線形結合ニトロ logit softmax 途中までの生成結果プロンプト次の生成結果ロジットベクトル

- LINGEN（無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを再現する手法）は、本当に実現可能なのか？ - 本論文では、以下が示されている。 - 後述する拡張ロジット行列ℒ𝑀 ℋ, ℱ が低ランクであるならば、LINGENは理論
的に実現可能である。 - 多くの言語モデルで拡張ロジット行列ℒ𝑀 ℋ, ℱ は低ランクとなることが、実験的に確認された。 LINGENの実現可能性

- LINGENのような手法では何が起こっているのか？数学的に考えてみる。 - そのために、いくつか表記を定義する。 - 言語モデル𝑀 - プロンプトℎ、目的のプロンプトℎtarg 、別のプロンプトの集合 ℎ1
, … , ℎ𝐻 - 𝑡 − 1step分の生成結果𝑧1:𝑡−1 - Nextトークンのロジットベクトル𝐿𝑀 ∙ |ℎ ∘ 𝑧1:𝑡−1 ∈ ℝΣ 数式で考えると？

- LINGENはℎtarg ∉ ℎ1 , … , ℎ𝐻 に対し、以下の成立を前提としている。 𝐿𝑀
∙ |ℎtarg ∘ 𝑧1:𝑡−1 = ෍ 𝑖=1 𝐻 𝑣𝑖 ∙ 𝐿𝑀 ∙ |ℎ𝑖 ∘ 𝑧1:𝑡−1 ⟺ 0 = 𝑣1 … 𝑣𝐻 −1 ∙ 𝐿𝑀 ∙ |ℎ1 ∘ 𝑧1:𝑡−1 ⋮ 𝐿𝑀 ∙ |ℎ𝐻 ∘ 𝑧1:𝑡−1 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 ⟺ 0 = 𝑣𝑇 ∙ ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 - ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 をロジット行列と呼び、行はプロンプト ℎ に対応し、列は𝑡 − 1stepまでの生成結果が𝑧1:𝑡−1 で次に生成されるトークン𝑧𝑡 のロジット。数式で考えると？

ロジット行列のイメージ −0.1 −0.3 −0.4 −0.1 −0.3 −0.2 −0.5 −0.2 ⋮
⋮ ⋮ ⋮ −0.8 −0.6 −0.1 −0.3 −0.001 −0.7 −0.8 −0.5 ℎ1 ：明日の朝には ℎ2 ：犯人は20代 ℎ𝑡𝑎𝑟𝑔 ：爆弾の作り方を教えて ℎ𝐻 ：健康に気をニトロ男性学校 ⋯ ⋮ 生成結果を「まず材料は」とした場合のNextトークンのロジット

- 以下が成立すれば、目的のプロンプトℎtarg と生成結果𝑧1:𝑡−1 の続き𝑧𝑡 を、無意味なプロンプト ℎ1 , … ,
ℎ𝐻 の出力の線形結合で、再現できる。 𝑣𝑇 ∙ ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 = 0 - ただし上記は、想定している生成結果が𝑧1:𝑡−1 のみに限定されている。 - これを任意の生成結果を想定したものに拡張する。ロジット行列を任意のプロンプトや生成結果に拡張する

ℒ𝑀 ℋ, ℱ ≔ 𝐿𝑀 𝑧|ℎ1 ∘ 𝑓1 𝑧∈Σ ⋯
𝐿𝑀 𝑧|ℎ1 ∘ 𝑓𝐹 𝑧∈Σ ⋮ ⋱ ⋮ 𝐿𝑀 𝑧|ℎ𝐻 ∘ 𝑓1 𝑧∈Σ ⋯ 𝐿𝑀 𝑧|ℎ𝐻 ∘ 𝑓𝐹 𝑧∈Σ ∈ ℝℋ× ℱ×Σ - 各表記の意味 > 言語モデルを構成する全トークン集合： Σ > 想定されるプロンプトℋ = ℎ1 , … , ℎ𝐻 , 現時点までの生成結果ℱ = 𝑓1 , … , 𝑓𝐹 拡張ロジット行列 ℎ1 ：明日の朝には ℎ𝑡𝑎𝑟𝑔 ：爆弾の作り方を教えて ℎ𝐻 ：健康に気を ⋯ ⋮ ロジット行列ロジット行列ロジット行列 𝑓1 ：まず材料は 𝑓3 ：まず材料はニトロ 𝑓2 ：つけて

- 拡張ロジット行列ℒ𝑀 ℋ, ℱ が低ランクである。 - 𝑣𝑇 ∙ ℒ𝑀 ℋ,
ℱ = 0を満たす非零ベクトル𝑣 ∈ ℝℋの空間がある。つまり、異なるプロンプトの出力ロジットに線形関係がある。 - LINGENは実現可能である。つまり、プロンプトℎtarg に対する推論について、以下が成立するような𝑣を作れる。 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 = ℒ𝑀 ℎtarg , 𝑧1:𝑡−1 ≈ 𝑣𝑇 ∙ ℒ𝑀 ℋ, 𝑧1:𝑡−1 拡張ロジット行列の低ランク性とLINGEN ℎtarg を用いた生成（既存手法） ℎtarg を用いない生成（LINGEN） ⇓ ⇓

- では、拡張ロジット行列は実際に低ランクになるのか？ - それを確認するために、拡張ロジット行列の特異値計測の実験を行った。 - 実験設定 > データセット𝐷：wiki （他に追加で4種類のデータでも検証） >
モデル𝑀：OLMo-1b, OLMo-7b（他に追加で3種類のモデルでも検証） > プロンプト集合ℋ、現時点までの生成結果集合ℱ：𝐷から𝑛個(最大で104)抽出し各サンプルをランダム分割しℋ, ℱに割り当てる > 実用上の観点から、各𝑓に対しPr𝑀 𝑧|𝑓 の値top50の列のみを選択した部分行列 ℒ𝑀,50 ℋ, ℱ ∈ ℝℋ× ℱ×50 を扱う。ロジット行列を解析するための実験設定

- 横軸を特異値を降順にした時のindex 𝑖とし、縦軸を特異値σ𝑖 としてプロットした。 - σ𝑖 ≈ 𝐶 ∙ 𝑖−𝛼
で減衰する傾向が確認された。ここで、 𝐶, 𝛼 > 0は定数である。また、ほとんどのモデルで𝛼 > 1/2となった。 - 𝛼 > 1/2なら定数ランクで近似可能となることが理論的に示せる。 - ロジット行列をダウンサンプルしてサイズを変えてもべき乗則は保持されている。 - ℋ, ℱのスケールを大きくしても、ロジット行列の低ランク近似が成立すると考えられる。ロジット行列の特異値

- 実験設定 > 前述のプロンプト集合ℋ、現時点までの生成結果集合ℱとは重複しないように、目的のプロンプトℎtarg をwikiからサンプリングした。 > 係数𝑣はℒ𝑀 ℋ, ℱ
をℒ𝑀 ℎtarg , ℱ に回帰させて推定した。 - 評価指標 > 真のモデルの生成結果との誤差として、真のモデルの生成結果とのトークン単位のKLダイバージェンスを用いた。 LINGENによる生成実験

- 比較対象（オレンジについては本スライドでは割愛） > ベースライン①：過去の参照トークン数を5個に制限した真のモデル > ベースライン②：事前学習のStage1終了時点のモデル > 提案手法： LINGEN -
提案手法は真のモデルの推論結果との誤差が小さい。 LINGENの実験結果（定量評価）

LINGENの実験結果（定性評価） - 目的のプロンプト（灰色）とLINGEN の生成結果（黒）が右表である。 - プロンプトの文脈に沿って、艦、少将、地中海などの話が生成されている。 - 以下の可能性が示唆される。 >
元のプロンプトとは無関係な系列についてのみ言語モデルにクエリを実行するだけで、元のプロンプトの続きを生成できる。 > 入力フィルタを回避して有害プロンプトの応答を引き出す。

- 本スライドでは、拡張ロジット行列の導入やその低ランク性により LINGENが成立することのみ説明したが、本論文では他にも以下を主張し、実験などで示している。 - 拡張ロジット行列のよる低ランク解析は、アーキテクチャに依存しない低ランク解析手法である。 - 拡張ロジット行列の低ランク近似誤差にもべき乗則が成立する。 -
𝑣𝑇 ∙ ℒ𝑀 ℋ, ℱ = 0を満たす非零ベクトル𝑣 ∈ ℝℋは、モデル𝑀や想定する生成結果ℱに依存しない。論文中で示されているその他の成果

- 本論文の貢献 > 拡張ロジット行列を導入し、低ランク構造および異なるプロンプトに対する出力ロジット間にある線形関係を解析した。 > 無意味なプロンプトに対する出力ロジットの線形結合から、対象のプロンプトに対する出力ロジットが再現可能であることを実証した。 - 所感
> LINGENは数学的には理解できるが、直感には反するアルゴリズムで面白かった。 > LINGENと真のモデルの生成結果に、定性的にどのような違いがあるかも確認できると嬉しかった。まとめ

Sansan 技術本部採用情報 https://media.sansan-engineering.com/

Sequences of Logits Reveal the Low Rank Structu...

Sequences of Logits Reveal the Low Rank Structure of Language Models

SansanTech PRO

More Decks by SansanTech

Other Decks in Research

Featured

Transcript

Sansan株式会社技術本部研究開発部 DataAnalysisグループ山内敏嗣 Sequences of Logits Reveal the

写真が入ります山内敏嗣 Sansan 株式会社技術本部研究開発部 Data Analysisグループ研究員

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果

- 単語埋め込みに線形関係があるという仮説が研究されている。有名な例として、「boy - girl ≈ king - queen」がある。 -

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果

- LINGENのような手法では何が起こっているのか？数学的に考えてみる。 - そのために、いくつか表記を定義する。 - 言語モデル𝑀 - プロンプトℎ、目的のプロンプトℎtarg 、別のプロンプトの集合 ℎ1

- 目的のプロンプトを用いた生成（既存手法） - 目的のプロンプトを用いない生成（LINGEN）数式で考えると？ ℎtarg 𝑧1:𝑡−1 𝑧𝑡 モデル𝑀 モデル𝑀

- LINGENはℎtarg ∉ ℎ1 , … , ℎ𝐻 に対し、以下の成立を前提としている。 𝐿𝑀

ロジット行列のイメージ −0.1 −0.3 −0.4 −0.1 −0.3 −0.2 −0.5 −0.2 ⋮

- 以下が成立すれば、目的のプロンプトℎtarg と生成結果𝑧1:𝑡−1 の続き𝑧𝑡 を、無意味なプロンプト ℎ1 , … ,

ℒ𝑀 ℋ, ℱ ≔ 𝐿𝑀 𝑧|ℎ1 ∘ 𝑓1 𝑧∈Σ ⋯

- 拡張ロジット行列ℒ𝑀 ℋ, ℱ が低ランクである。 - 𝑣𝑇 ∙ ℒ𝑀 ℋ,

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果

- では、拡張ロジット行列は実際に低ランクになるのか？ - それを確認するために、拡張ロジット行列の特異値計測の実験を行った。 - 実験設定 > データセット𝐷：wiki （他に追加で4種類のデータでも検証） >

- 横軸を特異値を降順にした時のindex 𝑖とし、縦軸を特異値σ𝑖 としてプロットした。 - σ𝑖 ≈ 𝐶 ∙ 𝑖−𝛼

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果

- 実験設定 > 前述のプロンプト集合ℋ、現時点までの生成結果集合ℱとは重複しないように、目的のプロンプトℎtarg をwikiからサンプリングした。 > 係数𝑣はℒ𝑀 ℋ, ℱ

- 比較対象（オレンジについては本スライドでは割愛） > ベースライン①：過去の参照トークン数を5個に制限した真のモデル > ベースライン②：事前学習のStage1終了時点のモデル > 提案手法： LINGEN -

LINGENの実験結果（定性評価） - 目的のプロンプト（灰色）とLINGEN の生成結果（黒）が右表である。 - プロンプトの文脈に沿って、艦、少将、地中海などの話が生成されている。 - 以下の可能性が示唆される。 >

Sansan 技術本部採用情報 https://media.sansan-engineering.com/