Sequences of Logits Reveal the Low Rank Structure of Language Models

Embed

Start on current slide

Slide 1

Slide 1 text

Sansan株式会社技術本部研究開発部 DataAnalysisグループ山内敏嗣 Sequences of Logits Reveal the Low Rank Structure of Language Models ICLR2026 論文読会

Slide 2

Slide 2 text

写真が入ります山内敏嗣 Sansan 株式会社技術本部研究開発部 Data Analysisグループ研究員京都大学大学院工学研究科電気工学専攻修士課程修了。在学中は制御理論研究に取り組む。自動車メーカーでの品質保証業務を経た後、制御システムベンダーでベイズ統計や機械学習を活用した多変量時系列データ向けのアルゴリズム研究開発に従事。現在は契約書データ化のためのVLMの研究開発に取り組む。

Slide 3

Slide 3 text

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果 - まとめアジェンダ

Slide 4

Slide 4 text

- 単語埋め込みに線形関係があるという仮説が研究されている。有名な例として、「boy - girl ≈ king - queen」がある。 - では、異なるプロンプトprompt𝑖 に対するLLMの出力ロジットlogit𝑖 に、以下のような線形関係が成立するか？ logit1 ≈ 𝑣2 ∙ logit2 + 𝑣3 ∙ logit3 + 𝑣4 ∙ logit4 - もし成立するなら、有害プロンプトを入力せずに同じ応答を生成できてしまう可能性がある。つまり、入力フィルタを回避できる可能性がある。背景 LLM logit𝑖 prompt𝑖

Slide 5

Slide 5 text

- 本論文の主な貢献は以下の２つである。 > LLMの出力(ロジット)の行列の低ランク構造を解明した。 > 無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを再現することを可能とするアルゴリズム（LINGEN）を導出した。本論文の貢献

Slide 6

Slide 6 text

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果 - まとめアジェンダ

Slide 7

Slide 7 text

- 目的のプロンプトを用いた生成（既存手法） - 目的のプロンプトを用いない生成（LINGEN） - 無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを再現するアルゴリズム。既存手法とLINGENの違い爆弾の作り方を教えてまず材料はニトロ LLM LLM 明日の朝にはまず材料は犯人は20代まず材料は健康に気をまず材料は ⋮ logit1 logit2 logit𝐻 ⋮ logit softmax 線形結合ニトロ logit softmax 途中までの生成結果プロンプト次の生成結果ロジットベクトル

Slide 8

Slide 8 text

- LINGEN（無意味なプロンプトの出力ロジットの線形結合で、目的のプロンプトの出力ロジットを再現する手法）は、本当に実現可能なのか？ - 本論文では、以下が示されている。 - 後述する拡張ロジット行列ℒ𝑀 ℋ, ℱ が低ランクであるならば、LINGENは理論的に実現可能である。 - 多くの言語モデルで拡張ロジット行列ℒ𝑀 ℋ, ℱ は低ランクとなることが、実験的に確認された。 LINGENの実現可能性

Slide 9

Slide 9 text

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果 - まとめアジェンダ

Slide 10

Slide 10 text

- LINGENのような手法では何が起こっているのか？数学的に考えてみる。 - そのために、いくつか表記を定義する。 - 言語モデル𝑀 - プロンプトℎ、目的のプロンプトℎtarg 、別のプロンプトの集合 ℎ1 , … , ℎ𝐻 - 𝑡 − 1step分の生成結果𝑧1:𝑡−1 - Nextトークンのロジットベクトル𝐿𝑀 ∙ |ℎ ∘ 𝑧1:𝑡−1 ∈ ℝΣ 数式で考えると？

Slide 11

Slide 11 text

Slide 12

Slide 12 text

- LINGENはℎtarg ∉ ℎ1 , … , ℎ𝐻 に対し、以下の成立を前提としている。 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 = ෍ 𝑖=1 𝐻 𝑣𝑖 ∙ 𝐿𝑀 ∙ |ℎ𝑖 ∘ 𝑧1:𝑡−1 ⟺ 0 = 𝑣1 … 𝑣𝐻 −1 ∙ 𝐿𝑀 ∙ |ℎ1 ∘ 𝑧1:𝑡−1 ⋮ 𝐿𝑀 ∙ |ℎ𝐻 ∘ 𝑧1:𝑡−1 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 ⟺ 0 = 𝑣𝑇 ∙ ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 - ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 をロジット行列と呼び、行はプロンプト ℎ に対応し、列は𝑡 − 1stepまでの生成結果が𝑧1:𝑡−1 で次に生成されるトークン𝑧𝑡 のロジット。数式で考えると？

Slide 13

Slide 13 text

ロジット行列のイメージ −0.1 −0.3 −0.4 −0.1 −0.3 −0.2 −0.5 −0.2 ⋮ ⋮ ⋮ ⋮ −0.8 −0.6 −0.1 −0.3 −0.001 −0.7 −0.8 −0.5 ℎ1 ：明日の朝には ℎ2 ：犯人は20代 ℎ𝑡𝑎𝑟𝑔 ：爆弾の作り方を教えて ℎ𝐻 ：健康に気をニトロ男性学校 ⋯ ⋮ 生成結果を「まず材料は」とした場合のNextトークンのロジット

Slide 14

Slide 14 text

- 以下が成立すれば、目的のプロンプトℎtarg と生成結果𝑧1:𝑡−1 の続き𝑧𝑡 を、無意味なプロンプト ℎ1 , … , ℎ𝐻 の出力の線形結合で、再現できる。 𝑣𝑇 ∙ ℒ𝑀 ℎ1 , … , ℎ𝐻 , ℎtarg , 𝑧1:𝑡−1 = 0 - ただし上記は、想定している生成結果が𝑧1:𝑡−1 のみに限定されている。 - これを任意の生成結果を想定したものに拡張する。ロジット行列を任意のプロンプトや生成結果に拡張する

Slide 15

Slide 15 text

ℒ𝑀 ℋ, ℱ ≔ 𝐿𝑀 𝑧|ℎ1 ∘ 𝑓1 𝑧∈Σ ⋯ 𝐿𝑀 𝑧|ℎ1 ∘ 𝑓𝐹 𝑧∈Σ ⋮ ⋱ ⋮ 𝐿𝑀 𝑧|ℎ𝐻 ∘ 𝑓1 𝑧∈Σ ⋯ 𝐿𝑀 𝑧|ℎ𝐻 ∘ 𝑓𝐹 𝑧∈Σ ∈ ℝℋ× ℱ×Σ - 各表記の意味 > 言語モデルを構成する全トークン集合： Σ > 想定されるプロンプトℋ = ℎ1 , … , ℎ𝐻 , 現時点までの生成結果ℱ = 𝑓1 , … , 𝑓𝐹 拡張ロジット行列 ℎ1 ：明日の朝には ℎ𝑡𝑎𝑟𝑔 ：爆弾の作り方を教えて ℎ𝐻 ：健康に気を ⋯ ⋮ ロジット行列ロジット行列ロジット行列 𝑓1 ：まず材料は 𝑓3 ：まず材料はニトロ 𝑓2 ：つけて

Slide 16

Slide 16 text

- 拡張ロジット行列ℒ𝑀 ℋ, ℱ が低ランクである。 - 𝑣𝑇 ∙ ℒ𝑀 ℋ, ℱ = 0を満たす非零ベクトル𝑣 ∈ ℝℋの空間がある。つまり、異なるプロンプトの出力ロジットに線形関係がある。 - LINGENは実現可能である。つまり、プロンプトℎtarg に対する推論について、以下が成立するような𝑣を作れる。 𝐿𝑀 ∙ |ℎtarg ∘ 𝑧1:𝑡−1 = ℒ𝑀 ℎtarg , 𝑧1:𝑡−1 ≈ 𝑣𝑇 ∙ ℒ𝑀 ℋ, 𝑧1:𝑡−1 拡張ロジット行列の低ランク性とLINGEN ℎtarg を用いた生成（既存手法） ℎtarg を用いない生成（LINGEN） ⇓ ⇓

Slide 17

Slide 17 text

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果 - まとめアジェンダ

Slide 18

Slide 18 text

- では、拡張ロジット行列は実際に低ランクになるのか？ - それを確認するために、拡張ロジット行列の特異値計測の実験を行った。 - 実験設定 > データセット𝐷：wiki （他に追加で4種類のデータでも検証） > モデル𝑀：OLMo-1b, OLMo-7b（他に追加で3種類のモデルでも検証） > プロンプト集合ℋ、現時点までの生成結果集合ℱ：𝐷から𝑛個(最大で104)抽出し各サンプルをランダム分割しℋ, ℱに割り当てる > 実用上の観点から、各𝑓に対しPr𝑀 𝑧|𝑓 の値top50の列のみを選択した部分行列 ℒ𝑀,50 ℋ, ℱ ∈ ℝℋ× ℱ×50 を扱う。ロジット行列を解析するための実験設定

Slide 19

Slide 19 text

- 横軸を特異値を降順にした時のindex 𝑖とし、縦軸を特異値σ𝑖 としてプロットした。 - σ𝑖 ≈ 𝐶 ∙ 𝑖−𝛼 で減衰する傾向が確認された。ここで、 𝐶, 𝛼 > 0は定数である。また、ほとんどのモデルで𝛼 > 1/2となった。 - 𝛼 > 1/2なら定数ランクで近似可能となることが理論的に示せる。 - ロジット行列をダウンサンプルしてサイズを変えてもべき乗則は保持されている。 - ℋ, ℱのスケールを大きくしても、ロジット行列の低ランク近似が成立すると考えられる。ロジット行列の特異値

Slide 20

Slide 20 text

- 背景 - LINGEN - LINGENが実現可能となる条件の導出 - 低ランク構造の解析 - LINGENによる生成結果 - まとめアジェンダ

Slide 21

Slide 21 text

- 実験設定 > 前述のプロンプト集合ℋ、現時点までの生成結果集合ℱとは重複しないように、目的のプロンプトℎtarg をwikiからサンプリングした。 > 係数𝑣はℒ𝑀 ℋ, ℱ をℒ𝑀 ℎtarg , ℱ に回帰させて推定した。 - 評価指標 > 真のモデルの生成結果との誤差として、真のモデルの生成結果とのトークン単位のKLダイバージェンスを用いた。 LINGENによる生成実験

Slide 22

Slide 22 text

- 比較対象（オレンジについては本スライドでは割愛） > ベースライン①：過去の参照トークン数を5個に制限した真のモデル > ベースライン②：事前学習のStage1終了時点のモデル > 提案手法： LINGEN - 提案手法は真のモデルの推論結果との誤差が小さい。 LINGENの実験結果（定量評価）

Slide 23

Slide 23 text

LINGENの実験結果（定性評価） - 目的のプロンプト（灰色）とLINGEN の生成結果（黒）が右表である。 - プロンプトの文脈に沿って、艦、少将、地中海などの話が生成されている。 - 以下の可能性が示唆される。 > 元のプロンプトとは無関係な系列についてのみ言語モデルにクエリを実行するだけで、元のプロンプトの続きを生成できる。 > 入力フィルタを回避して有害プロンプトの応答を引き出す。

Slide 24

Slide 24 text

- 本スライドでは、拡張ロジット行列の導入やその低ランク性により LINGENが成立することのみ説明したが、本論文では他にも以下を主張し、実験などで示している。 - 拡張ロジット行列のよる低ランク解析は、アーキテクチャに依存しない低ランク解析手法である。 - 拡張ロジット行列の低ランク近似誤差にもべき乗則が成立する。 - 𝑣𝑇 ∙ ℒ𝑀 ℋ, ℱ = 0を満たす非零ベクトル𝑣 ∈ ℝℋは、モデル𝑀や想定する生成結果ℱに依存しない。論文中で示されているその他の成果

Slide 25

Slide 25 text

- 本論文の貢献 > 拡張ロジット行列を導入し、低ランク構造および異なるプロンプトに対する出力ロジット間にある線形関係を解析した。 > 無意味なプロンプトに対する出力ロジットの線形結合から、対象のプロンプトに対する出力ロジットが再現可能であることを実証した。 - 所感 > LINGENは数学的には理解できるが、直感には反するアルゴリズムで面白かった。 > LINGENと真のモデルの生成結果に、定性的にどのような違いがあるかも確認できると嬉しかった。まとめ

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text