Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルの内部機序:解析と解釈

 言語モデルの内部機序:解析と解釈

2025-03-10, 言語処理学会 第31回年次大会でのチュートリアル「言語モデルの内部機序:解析と解釈」のスライドです。

Sho Yokoi

March 10, 2025
Tweet

Resources

言語処理学会第31回年次大会 (NLP 2025)

https://www.anlp.jp/nlp2025/#tutorial

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 言語モデルの 内部機序 解析 と

    解釈 Benjamin HEINZERLING12,横井 祥321,小林 悟郎21 analysis interpretation 2025-03-10, 言語処理学会第31回年次大会 (NLP2025), チュートリアル1 1理研,2東北大,3国語研 🕰 13:00
  2. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 スピーカー Benjamin HEINZERLING ハインツァリング

    ベンヤミン 理研/東北大 横井 祥 国語研/東北大/理研 小林 悟郎 東北大/理研 3 3人で話します 新しい技術・潮流・参入プレイヤーがどんどんでてくる分野ですし, しかも大規模言語モデルの登場でこの傾向が加速しています. *ACLで行われているような,スピーカー複数名での合同チュートリアルが 今後どんどん増えていけば良いなと思っています.
  3. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 QA • Slack に随時気軽に質問・コメント・野次を投稿してください

    ◦ Slack チャンネルをできるだけリアルタイムでチェックします ▪ ラフなコメント,雑談,スタンプコミュニケーションも⼤歓迎です ◦ 拾えそうなコメント・質問は可能な範囲で拾いながら話します ◦ 多くの人が気になっていそうなコメント・質問を優先して拾います • QAタイム を設けます ◦ 適宜質問タイムを取ります ▪ 90分を超えるトークは聞き⼿がむちゃくちゃ疲れるので…… ▪ スタンプが集まっている質問を中⼼に ◦ 最後にも質問タイムをとります 5
  4. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 スライド • Ver. 1

    : 事前配布版 ◦ 学会参加者への事前配布版 • Ver. 2 : 当日利用版 ◦ https://speakerdeck.com/eumesy/analysis_and_interpretation_of_language _models ◦ 今日はこちらを利用します ◦ Ver. 1 から大幅に更新しました • Ver. 3 : アーカイブ版 ◦ チュートリアル中やその前後でいただいたコメントへの回答を,後日反映予定です ◦ ぜひ気軽に質問・コメントを Slack にお寄せください 6
  5. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 例1:ゴールデンゲートブリッジ特徴 • Claudeの表現空間内に, ゴールデンゲートブリッジの

    話題や画像にだけ選択的に 反応する特徴量がある • この特徴を増幅させると, 言語モデルが「我こそは ゴールデンゲートブリッジ である」などと言い始める https://transformer-circuits.pub/2024/scaling-monosemanticity 9 Q. あなたはどういう身体 を持っているの? A. 持っていません.   私は人工知能です. A. 我こそがゴールデン ゲートブリッジなり.
  6. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 言語モデルの活性化空間に「時間軸」を表す部分空間が存在. • 有名人の名前をモデルにエンコードした上で,その内部表現を「時間軸」に

    沿って動かすと,出力されるこの有名人の生まれ年が変わる. 例2:時間を司る「軸」の存在 Heinzerling & Inui 2024: Monotonic Representation of Numeric Properties in Language Models 10 Q. カールポパーの生まれ年は? A. 1902 誕生年軸を手前に動かすと… 誕生年軸を奥側に動かすと… A. 1975 A. 1881
  7. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 まず,言語モデルの出力はすでに結構イケている • 流暢さ ◦

    非常に低いパープレキシティ ◦ =次単語予測の精度が極めて高い ◦ =ヒトの集合が書いた大量のテキストと,  言語モデルが書いた大量のテキストとを比べると,  少なくとも「単語の並べかた」という観点では酷似する • タスク実行能力 ◦ 言語を入出力の一部に持つありとあらゆるタスクに関する高い実行能力 ◦ 「難しい」ベンチマークタスクが作られ,即時サチる/人間の能力を凌駕する, ……の繰り返し 13
  8. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 タスク実行能力をチェックするやり方の限界 機械翻訳 対話システム A

    popular hypothesis to explain... 記録的猛暑を説明する有力な仮説… 地獄がすぎる。一旦飲み行こ。明日… 昨日の修論審査でやべえ突っ込み… 14
  9. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 タスク実行能力をチェックするやり方の限界 機械翻訳 対話システム A

    popular hypothesis to explain... 記録的猛暑を説明する有力な仮説… 地獄がすぎる。一旦飲み行こ。明日… 昨日の修論審査でやべえ突っ込み… 中国人の部屋 [1980] 巨大なルールブックを 持っているだけ? ブロックヘッド [1981] 巨大なルックアップテーブルを 持っているだけ? → 行動主義 (入出力のチェック)への批判 言語モデルは「何もわかっていない」かもしれない 15 Searle, 1980: Minds, brains, and programs Block, 1981: Psychologism and Behaviorism
  10. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 行動主義から 内部機序の理解へ • 多くのベンチマークタスクは行動主義的

    ◦ 例:チューリングテスト ◦ 入力を入れて適切な出力 が得られるかをテスト ◦ ※ NLP はタスク(入力 → 出力 集)とモデルの相互の発展で進んできたものの • 「このモデル,本当に分かっている……?」という疑念が残る ◦ 言語・世界について正しく理解した上で,適切な機序に基づいて解いている? ◦ 不適切なチートをおこなっていて,ちょっと形式が変わったら解けなくなる? • 解決策のひとつ:適切な内部状態 を持っているかどうかも併せて確認する 16 ポイント1:内部を見る Block, 1981: Psychologism and Behaviorism Dowe et al., 1998: A Non-Behavioural, Computational Extension to the Turing Test
  11. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ホワイトボックスな言語モデルも全然わからない • モデルを理解することは,しばしばブラック ボックスを開くことに喩えられる

    ◦ ウェブインタフェースやAPIを通してアクセス する言語モデルは,たしかにブラックボックス ▪ e.g. ChatGPT by OpenAI ◦ 言語モデルの解釈性を牽引してきた BlackboxNLP • しかしよく考えると…… • ホワイトボックスの言語モデル はたくさんある : ✔ 計算グラフ全体 ✔ 学習された重みパラメータ全体 ✔ 入力の各層・モジュールにおける内部状態 ✔ 介入すら可能 • ……のに,これらの情報を見ても全然わかった 気がしない 18
  12. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ホワイトボックスでも解釈できると嬉しい No thank you...

    パラメータ全体を見せられる Good! 「BERTの浅い層では品詞タグ付け を,深い層では共参照解析をして いるっぽい」[Tenney+ACL’19] 19
  13. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ホワイトボックスでも解釈できると嬉しい No thank you...

    パラメータ全体を見せられる Good! 「BERTの浅い層では品詞タグ付け を,深い層では共参照解析をして いるっぽい」[Tenney+ACL’19] 20 これがどうつらいのか
  14. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 「パラメータを全部見る」はつらい • 「対象を理解する」=「対象を要素還元的 に

     構成要素に帰着させて理解する」? • 一番小さい要素であるニューロン について われわれは全部見えている ◦ 各モデルパラメータの値がわかる ◦ 入力に対する内部状態の値もわかる • ……それでも何もわからない ◦ 人間は複雑なモデルを丸呑みできない • 超多パラメータ非線形系である言語モデルを 理解するために,より粗い粒度で捉える必要性 ◦ 抽象化 ◦ 単純化 21
  15. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 知りたいのはおそらくアルゴリズムと表現の階層 デビッド・マーの3つのレベル • 計算のレベル

    ◦ ≈ 外部仕様 ◦ このプログラムの目的・入出力 ◦ ここはわかっている — 目的関数,タスク • アルゴリズムと表現のレベル ◦ ≈ 疑似コード・抽象的なプログラム ◦ 抽象化された 表現,抽象化された 計算 ◦ ここがわからない • ハードウェア実装のレベル ◦ ≈ メモリに書き込まれたデータ・プログラム ◦ 「物理」実装 ◦ ここもわかっている — 生の内部表現,計算グラフ Image: Guo et al., 2021 22 計算論的な視覚・神経科学の祖
  16. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ホワイトボックスでも解釈できると嬉しい No thank you...

    パラメータ全体を見る Good! 「BERTの浅い層では品詞タグ付け を,深い層では共参照解析をして いるっぽい」[Tenney+ACL’19] 😀 人間にわかる粒度に 抽象化・単純化 23 ポイント2:抽象化・単純化する
  17. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 表現と計算を抽象化するだけでは足りない • われわれが知りたいのは,抽象的な表現・計算だけではない •

    その表現・計算が, 言語・世界・知識 に関して何を表現・計算しているのかを知りたい • 🤨 Aの表現とBの表現を足すとCの表現が計算できる • ☺ “royal”の表現 と“woman”の表現 を足すと“queen”の表現 が計算でき る 25
  18. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ホワイトボックスでも解釈できると嬉しい No thank you...

    パラメータ全体を見る Good! 「BERTの浅い層では品詞タグ付け を,深い層では共参照解析 をして いるっぽい」[Tenney+ACL’19] 😀 言語・世界・知識の話に 接続されている 26 ポイント3:言語・世界・知識に接続する
  19. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 言語モデルの理解に向けた課題 → すべきこと 1.

    モデルの入出力はモデルの出力の「理由」にならない → モデル内部の 表現・計算 (=内部機序)の検討が必要 2. 人間は複雑なモデル全体をひと呑みに理解できない → 抽象化・単純化 が必要 — 解析 (analysis) 3. 人間は表現・計算を世界に紐付けて理解したい → 言語・世界・知識との接続 が必要 — 解釈 (interpretation) 本日のテーマ: 言語モデルの 内部機序:解析と解釈 analysis interpretation 28
  20. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 “1879” 1879 “Albert Einstein”

    1800 1900 内部機序の解析と解釈 解釈 1875 解析 “Isaac Newton” 1880 29 超多パラメータ・非線形の 複雑な言語モデル そのままでは理解困難 解析(抽象化・単純化) モデル内部の表現や計算を 人間が理解できるレベルまで 抽象化・単純化 解釈(意味付け) 取り出した表現や計算を 言語・世界・知識 に対応させる “When was Einstein born?”
  21. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 主として扱う言語モデル:トランスフォーマー型 32 日本 の

    首都 は 1. 埋め込み化 
 
 
 2. 文脈単語の表現 を混ぜながら各単 語の表現を更新 (注意機構) 変換 変換 変換 変換 3. 各単語の表現 を個別に更新
  22. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 主として扱う言語モデル:トランスフォーマー型 33 日本 の

    首都 は 
 
 
 変換 変換 変換 変換 4. 埋め込み表現 を離散トークン に戻して 次単語予測 東京 1. 埋め込み化 2. 文脈単語の表現 を混ぜながら各単 語の表現を更新 (注意機構) 3. 各単語の表現 を個別に更新
  23. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 の “1879” 1879 “Albert

    Einstein” 1800 1900 内部機序の解析と解釈 — 解釈 1875 解析 “Isaac Newton” 1880 35 超多パラメータ・非線形の 複雑な言語モデル そのままでは理解困難 解析(抽象化・単純化) モデル内部の表現や計算を 人間が理解できるレベルまで 抽象化・単純化 解釈(意味付け) 取り出した表現や計算機構を 言語・世界・知識 に対応させる 内部表現編 「何がどこにどう格納されていて」 「それは言語・世界・知識に関す る何とどう結びつくのか」 “When was Einstein born?”
  24. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 内部表現の単位 + 考える構造 •

    言語モデルの内部表現を分析する単位は大きく2種類に分けられる • 特徴量を単位にした議論 ◦ ニューロンの重みや活性値 ◦ あるいは何かを1次元〜数次元の空間に射影した値 ◦ 考える構造: 特徴量の値 (大きさ,グラデーション) • ベクトルを単位にした議論 ◦ 現状のニューラルネットベースの言語モデルはベクトル変換器 ◦ ベクトル集合(単語表現の集合;点群)に対して様々な構造が考えられる ◦ 考える構造: 分布,クラスタ構造 ◦ 考える構造: 関係・タプル ,木・階層,円・周期,グラフ 36
  25. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 内部表現の単位 + 考える構造 •

    特徴量を単位にした議論 ◦ ニューロンの重みや活性値 ◦ あるいは何かを1次元〜数次元の空間に射影した値 ◦ 考える構造: 特徴量の値 (大きさ,グラデーション) • ベクトルを単位にした議論 ◦ 現状のニューラルネットベースの言語モデルはベクトル変換器 ◦ ベクトル集合(単語表現の集合;点群)に対して様々な構造が考えられる ◦ 考える構造: 分布,クラスタ構造 ◦ 考える構造: 関係・タプル ,木・階層,円・周期,グラフ 37
  26. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 特徴量の取り出し方: プローブ • 教師あり

    ◦ 特徴量 → 対象概念 の関数 がよく学習できるか ◦ とても簡単なアプローチ • プローブ器の表現力の問題 ◦ 取り出そうと思えば何でも取り出せてしまう ◦ シンプルな (表現力が小さい,複雑ではない) プローブが望ましい ◦ プローブがシンプル → 内部表象がシンプル → 構造が適切にコンパクトに埋め込まれている ……と言いたくなる 39
  27. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 40 Gurnee & Tegmark.,

    2023: Language Models Represent Space and Time 特徴量の値: 緯度経度のプローブ • 地名の言語モデル表現 から地理座標(緯度・ 経度)をプローブ • プローブ器は線形 • → 地理座標はおそらく 線形にエンコードされ ている
  28. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 41 Heinzerling & Inui

    2024: Monotonic Representation of Numeric Properties in Language Models 数値的特性の単調表現 • 言語モデルのエンティ ティ表現に対して、教 師あり次元削減を適用 • 数値的特性は低次元の 部分空間にエンコード される Skip
  29. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 特徴量の取り出し方: 辞書学習 SAE (Sparse

    Autoencoder) の動機 • とくに 概念の数 > モデル次元の場合,表現の重ね合わせが起きる ◦ Superposition • 辞書学習を通して,何らかの概念や機能に対応するパーツを局在化したい ◦ Polysemanticity: ひとつのニューロン ↔ 複数の概念・機能が混在 ◦ → Monosemanticity: ひとつの特徴量 ↔ 単一の概念・機能 42 Bereska & Gavves, 2024: Mechanistic Interpretability for AI Safety -- A Review
  30. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 SAE (Sparse Autoencoders) の仕組み

    • 隠れ状態 (activation vector) を疎なオートエンコーダー で復元  ✔ 教師なし  ✔ 隠れ状態よりも高次元の空間へ射影 → 重ね合わせをほどく (disentanglement) • cf. 密なオートエンコーダー … 表現の低次元圧縮 43 Cunningham et al., 2023: Sparse Autoencoders Find Highly Interpretable Features in Language Models
  31. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 内部表現の単位 + 考える構造 •

    特徴量を単位にした議論 ◦ ニューロンの重みや活性値 ◦ あるいは何かを1次元〜数次元の空間に射影した値 ◦ 考える構造: 特徴量の値 (大きさ,グラデーション) • ベクトルを単位にした議論 ◦ 現状のニューラルネットベースの言語モデルはベクトル変換器 ◦ ベクトル集合(単語表現の集合;点群)に対して様々な構造が考えられる ◦ 考える構造: 分布,クラスタ構造 ◦ 考える構造: 関係・タプル ,木・階層,円・周期,グラフ 45
  32. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 点・クラスター構造の例:表現の分布を観察 • ✔ 語義クラスタが見える

    • ✔ 品詞クラスタが見える 47 Reif et al. 2019: Visualizing and Measuring the Geometry of BERT Kehlbeck et al. 2021: Demystifying the Embedding Space of Language Models Skip
  33. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 関係・タプル: 静的単語埋め込み のベクトル代数 word2vec

    などの表現空間に, 現実世界の関係知識が埋め込まれている しかも足し算・平行移動 で表現される 例:主語+関係=目的語 48
  34. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 トランスフォーマー言語モデルの中での関係 𝑟 も,   線形関数

    R: 主語の表現 𝑠 → 目的語の表現 o (足し算!)でよく近似できる 49 Hernandez et al., 2023: Linearity of Relation Decoding in Transformer Language Models 関係・タプル: LMの隠れ状態 のベクトル代数
  35. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 木構造の例:構文解析木のStructural Probe Hewitt &

    Manning, 2019: A Structural Probe for Finding Syntax in Word Representations 50 • 構文木での距離 ↔ 埋め込み空間での距離 の対応が,埋め込みの直交変換の範囲で よくプローブできる • =埋め込み空間に構文情報が入っている?! Skip
  36. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 円形・周期的構造:mod 60 の足し算 Liu

    et al., 2022: Towards Understanding Grokking: An Effective Theory of Representation Learning 52 • (59+2) % 60 = 1のような mod 60 の足し算を言語モデルで学習 • 「良いモデル」の数値の内部表現は,mod をよく表す円形の分布になる
  37. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 周期的構造 Engels et al.

    2024: Not All Language Model Features Are Linear 53 事前学習済み言語モデル(GPT-2)でも, 曜日などの周期的な知識 は,周期状に表現 されている
  38. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 グラフ構造の例:文脈内での “表現学習” Park et

    al., 2024: ICLR: In-Context Learning of Representations 54 擬似的に作った「概念グリッド」 概念グリッドの隣接関係に従って コンテクストを見せる たくさん見せると 「概念グリッド」が表現空間に復元
  39. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 そもそも「内部表現」の「表現」とは何なのか Hardingが提案した基準 「活性化パターンHが特徴Zの表現である」とは? 1.

    情報 (Information) 活性化パターンHは,特徴Zに関する情報を含んでいる = うまくプローブできる 2. 使用 (Use) 活性化パターンHは,タスクDを実行するために使用される = 活性化パターンを抑制するとモデルの性能が落ちる 3. 誤表現 (Misrepresentation) 活性化パターンH(s)は,入力sが本来持っている特徴ZではないZ’を表現できる = 入活性化パターンをZ’を持っているかのように反事実的に編集 (介入) すると,   あたかも入力/特徴が変わったかのようにモデルの出力が変化する 56 Harding, 2023: Operationalising Representation in Natural Language Processing
  40. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 「情報を持っている」ら「それが使われている」 へ プローブ等による内部表現の観察は統計的 な状況証拠にすぎない

    内部表現がエンコードされる情報がモデル の計算過程に利用される(出力に寄与す る)とは限らない ⇒プローブが成功したら、次のステップは 因果的介入によって出力への影響を観察 57 生まれ年と高 い相関性を示 す活性化空間 の方向
  41. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 代表的な因果的介入手法:Activation Patching Activation: ある層やモジュールの活性

    Patching: あるレイヤー、モジュールなどの隠れ状態を移植する 移植の効果を見て、内部表や計算過程について考察する: • 移植後もBobを出力 →「Bob」が移植レイヤーより遅くコピーされる? • 移植後にJohnを出力 →移植レイヤーまでコピーされた? 58 Zhang & Nanda, 2023: Towards Best Practices of Activation Patching in Language Models: Metrics and Methods パッチ Bob? John?
  42. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 例1:ゴールデンゲートブリッジ特徴 • Claudeの表現空間内に, ゴールデンゲートブリッジの

    話題や画像にだけ選択的に 反応する特徴量がある • この特徴を増幅させると, 言語モデルが「我こそは ゴールデンゲートブリッジ である」などと言い始める https://transformer-circuits.pub/2024/scaling-monosemanticity 59 Q. あなたはどういう身体 を持っているの? A. 持っていません.   私は人工知能です. A. 我こそがゴールデン ゲートブリッジなり. Activation patching で増幅
  43. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 言語モデルの活性化空間に「時間軸」を表す部分空間が存在. • 有名人の名前をモデルにエンコードした上で,その内部表現を「時間軸」に

    沿って動かすと,出力されるこの有名人の生まれ年が変わる. 例2:時間を司る「軸」の存在 Heinzerling & Inui 2024: Monotonic Representation of Numeric Properties in Language Models 60 Q. カールポパーの生まれ年は? A. 1902 誕生年軸を手前に動かすと… 誕生年軸を奥側に動かすと… A. 1975 A. 1881 Activation patching で表現を動かす
  44. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 例3:さらに抽象的な概念の制御 「回答の拒否」方向 • 言語モデルは有害な質問や要請に対する回答を拒否するよう事後学習される

    • 回答を拒否するかどうかを表現する方向が存在 [Arditi+’24] ◦ 有害な入力集合と無害な入力集合で、中間表現の平均差分ベクトル (振る舞い方向) を算出 • 推論中の中間表現に対し、この方向を伸ばしたり潰したりする介入で ◦ 有害な入力に対して拒否を回避できる (左図) ◦ 無害な入力に対して拒否を強制できる (右図) 61 Arditi+, Refusal in Language Models Is Mediated by a Single Direction (NeurIPS 2024) Skip
  45. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 主として扱う言語モデル:トランスフォーマー型 (再 掲) 63

    日本 の 首都 は 
 
 
 変換 変換 変換 変換 1. 埋め込み化 2. 文脈単語の表現 を混ぜながら各単 語の表現を更新 (注意機構) 3. 各単語の表現 を個別に更新
  46. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 内部の計算過程について理解を深めたい トランスフォーマーの絵を見ると, 計算過程について何となく理解できているように見える...? (「混ぜて変換してるのね」)

    → これだけでは具体的な内部挙動や処理過程は理解できない • 各層やモジュールは具体的にどんな処理をしているのか? ◦ どんな入力に対して、どの層で、どんな文脈情報を参照する? ◦ ベクトル変換は実際のところどういう役割? • モデル内でどのように情報が流れる か? • 各計算機構や表現は予測にどれほど影響を及ぼすか? 予測のプロセスをトラックできるか? • 特徴的な(=ある意味で異常な)処理過程が学習されていないか? 64
  47. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 モデル内部の計算過程を解析する手法群 言語モデルの計算過程を分析する手法は大きく4種類に分けられる • 注意パターン

    の観察 ◦ 文脈情報をどう参照しているのか? ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響 度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワーク の同定 ◦ Circuit Analysis 65
  48. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 計算過程の解釈・解析 • 注意パターン の観察

    ◦ 文脈情報をどう参照しているのか? ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響 度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワーク の同定 ◦ Circuit Analysis 66
  49. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 注意パターンの観察 • トランスフォーマーの核は注意機構 =

    文脈情報への動的な参照 が重要 • 各層の注意機構が文脈情報を どのように参照したのか • 注意重み (Attention weights) の観察が最も典型的な方法 ◦ 注意マップ(Attention map) として可視化されることが多い 注意機構での 文脈参照パターンを観察 例:“は” が “首都” を
 強く参照 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は 日本 の 首都 は 日本 の 首都 は Layer 1 67
  50. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 文脈情報をどう参照しているのか? • 構文情報に紐づく参照 ◦

    品詞 68 Vig&Belinkov, Analyzing the Structure of Attention in a Transformer Language Model (BlackboxNLP2019) 層 ヘッド 特定の品詞 (名詞や動詞など) を 強く参照するヘッドがある
  51. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 文脈情報をどう参照しているのか? • 構文情報に紐づく参照 ◦

    品詞 ◦ 依存関係 [Vig&Belinkov+’19] [Clark+’19] 特定の品詞へ強く注目 するヘッドがある 特定の依存関係にある 単語間で強く参照する ヘッドがある 69 Vig&Belinkov, Analyzing the Structure of Attention in a Transformer Language Model (BlackboxNLP2019) Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019)
  52. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 文脈情報をどう参照しているのか? • 構文情報に紐づく参照 ◦

    品詞 ◦ 依存関係 • 意味情報に紐づく参照 ◦ 意味フレーム 意味フレームにおける 要素間で強く参照する ヘッドがある 70 Kovaleva+, Revealing the Dark Secrets of BERT (EMNLP 2019)
  53. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 文脈情報をどう参照しているのか? • 構文情報に紐づく参照 ◦

    品詞 ◦ 依存関係 • 意味情報に紐づく参照 ◦ 意味フレーム ◦ 共参照 共参照の関係にある 単語間で強く注目する ヘッドがある 71 Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019)
  54. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 近くの情報を参照する (Local Attention)

    ◦ 隣接する数トークンを強く参照する ヘッドが多く存在 [Clark+’19; Fu+’24] • 文脈を広く参照する (Global Attention) ◦ 入力に応じて文脈を広く参照する ヘッドも存在 [Fu+’24] 近い文脈の参照・遠い文脈の参照 [Fu+’24] 72 Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019) Fu+, MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression (arXiv 2024)
  55. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 長文脈において必要な情報をピンポイントに参照するヘッドが存在 ◦ 長文脈タスクで重要な働き

    (ヘッド削除すると性能劣化) ◦ Chain-of-Thought による推論でも強く影響 Retrieval heads: 長い文脈から局所的な必要情報を参照する Wu+, Retrieval Head Mechanistically Explains Long-Context Factuality (ICLR 2025) 10万トークン以上も 離れた必要情報を ピンポイントに参照 73
  56. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 奇妙な傾向:文頭などへの過剰な参照 • 文頭・文末・区切り記号 (句読点や改行)

    に注意重みが偏る [Clark+’19] [Clark+’19] [Xiao+’24] 74 [Clark+’19; Vig&Belinkov’19; Xiao+’24] Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019) Vig&Belinkov, Analyzing the Structure of Attention in a Transformer Language Model (BlackboxNLP2019) Xiao+, Efficient Streaming Language Models with Attention Sinks (ICLR 2024)
  57. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Kovaleva+, Revealing the Dark

    Secrets of BERT (EMNLP 2019) 注意パターンの大分類 • BERT では注意パターンは大きく5パターンに分類できる [Kovaleva+’19] ◦ Vertical:文頭・文末・区切りなど一部のトークンばかりを強く参照する縦線型 ◦ Diagonal:隣接数トークンを強く参照する階段型 ◦ Vertical + Diagonal:上記2つの組み合わせ (縦線+階段型) ◦ Block:[SEP] で区切られた二つのテキスト内で参照し合う (ブロック型) ◦ Heterogeneous:その他 75 Skip
  58. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 複数ヘッドの注意パターンを統合する (抽象化) • 各ヘッド毎ではなく、複数ヘッドでまとめた注意パターンも観察したい

    ◦ 同じ層であれば、複数ヘッドの注意重み行列を平均して観察するケースが多い Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は Layer 1 各ヘッドの 注意パターン 平均 76 Skip
  59. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 複数ヘッドの注意パターンを統合する (抽象化) • 層を跨ぐ場合にはどうすれば良い?

    → 行列積で累積(Attention Rollout) [Abnar&Zuidema’20] Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は Layer 1 各ヘッドの 注意パターン 平均 対角行列を足して2で割る (残差結合を近似的に考慮) 2 2 2 2 2 2 行列積で累積 (下層から伝播) Abnar&Zuidema, Quantifying Attention Flow in Transformers (ACL 2020) 77 Skip
  60. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 注意重みを「モデルの振る舞い」や「予測の説明」として解釈してよいのか、 RNN+Attention の時代から議論がある

    ◦ 注意重みの値を置き換えても予測が大して変わらない ◦ タスクの重要情報に注意重みを割り振らない損失で学習しても、間接的に重要情報 にアクセスして十分なタスク性能を達成できる [Pruthi+’20] • 注意重みを拡張した手法が提案されている ◦ 注意重みから後段計算において本質的でない成分を除去する [Brunner+’20] ◦ Value ベクトルのノルムを考慮する [Kobayashi+’20] ◦ 注意機構以外のモジュールも考慮して注意パターンを観察する [Kobayashi+’21;’24] Kobayashi+, Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (EMNLP 2020) Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021) Kobayashi+, Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Maps (ICLR 2024) Jain&Wallace, Attention is not Explanation (NAACL 2019) Serrano&Smith, Is Attention Interpretable? (ACL 2019) Pruthi, Learning to Deceive with Attention-Based Explanations (ACL 2020) Brunner+, On Identifiability in Transformers (ICLR 2020) 注意重みに関する議論と拡張 78 [Jain&Wallace’19; Serrano&Smith’19]
  61. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 観察手法を拡張すると文頭などへの偏りは薄まる • 拡張した手法で注意パターンを観察すると、奇妙な注目の偏りが大幅に薄まる ◦

    文頭・文末・区切り記号に注意重みを強く割り振るが、その Value ベクトルは小さい → 「何もしない (no-operation)」という処理をややこしい形で実現 → 「合計が1になるように注意重みを文脈へ割り振る」という softmax の制約が要因 [Kobayashi+’20] 79 Kobayashi+, Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (EMNLP 2020) 注意重み 拡張手法 [Kobayashi+’20] BERTでの結果 GPT-2 での結果
  62. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Xiao+, Efficient Streaming Language

    Models with Attention Sinks (ICLR 2024) Chen+, SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator (arXiv 2024) 余談1:ゴミ箱機能を考慮したアーキテクチャ工夫 • 参照先を近い文脈のみに絞る sliding window attention にゴミ箱への参照を導入 ◦ 例外的に先頭には注目できるように設計すると絶大な性能向上 [Xiao+’24] ◦ 例外的に区切り記号にも注目できるように設計するとさらに性能向上 [Chen+’24] [Chen+’24] [Xiao+’24] 80 Skip
  63. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 言語モデルでは中間表現 (活性化) に外れ値が出現する

    ◦ Massive activations [Sun+’24] と呼ばれる少数の異常値が特定の表現の特定の次元に出現 (Super weights [Yu+’24] と呼ばれる異常値な重みパラメータから作成される) ◦ 量子化において性能劣化に繋がる厄介な存在 [Dettmers+’22] • 外れ値は注意機構のゴミ箱機能と密接に関連している [Sun+’24; Yu+’24] ◦ 外れ値はテキストの先頭や区切りトークンで出現し、そこがゴミ箱になる 余談2:ゴミ箱機能と外れ値の関係性 Sun+, Massive Activations in Large Language Models (COLM 2024) Yu+, The Super Weight in Large Language Models (arXiv 2024) [Sun+’24] 81 Dettmers+, GPT3.int8(): 8-bit Matrix Multiplication for Transformers at Scale Skip
  64. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 仮説:ゴミ箱機能のために外れ値を学習 [Bondarenko+’23]    1.

    偏った注意重み (Query と Key の内積) を作成するのに表現に外れ値が必要    2. 注意機構の直前にある層正規化が外れ値を弱める    3. 前層のフィードフォワードネットがかなり大きな外れ値を作成 • 外れ値からゴミ箱機能が実現される内部過程 [Sun+’24] ◦ 実は外れ値はゼロベクトルを作る ために使われていそう ◦ ほとんどの内積値は負の値なので、 ゼロに近い内積部分がゴミ箱になる 余談3:ゴミ箱機能と外れ値の数理 82 [Bondarenko+’23] Bondarenko+, Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing (NeurIPS 2023) Sun+, Massive Activations in Large Language Models (COLM 2024) [Sun+’24] Skip
  65. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Bondarenko+, Quantizable Transformers: Removing

    Outliers by Helping Attention Heads Do Nothing (NeurIPS 2023) Miller+, Attention Is Off By One (blog post 2023) Sun+, Massive Activations in Large Language Models (COLM 2024) • 「注意重みの合計が1」という制約を無くすように softmax を改変 • 各注意機構で系列の先頭に学習可能な Key/Value を足すように設計する[Sun+’24] 余談4:ゴミ箱・外れ値の緩和 [Bondarenko+’23] [Miller+’23] 83 [Sun+’24] [Miller+’23; Bondarenko+’23] それぞれ小さめモデルの事前学習で外れ値が緩和 → 量子化しやすいモデル構築に期待 Skip
  66. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 計算過程の解釈・解析 • 注意パターン の観察

    ◦ 文脈情報をどう参照しているのか? ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響 度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワーク の同定 ◦ Circuit Analysis 84
  67. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 パラメータを語彙に紐づける 85 Dar+, Analyzing

    Transformers in Embedding Space (ACL 2023) • 重みパラメータを埋め込み行列 (語彙×次元数の行列) に射影して観察 [Dar+’23] ◦ 各パラメータはどんな語彙の表現に反応するのか、 どんな語彙の表現に近づける変換をするのか ◦ 一部の注意機構パラメータは性別、地理、法律など 特定の情報と関連 ◦ 一部のフィードフォワードネットパラメータは 月、人名、スポーツなど特定のトピックに関連
  68. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 中間表現を語彙に紐づける • 各層の中間表現を予測ヘッドに渡して語彙に紐づける (Logit

    Lens [nostalgebraist’20]) ◦ 途中層で処理を強制中断して、無理やり出力させるイメージ ◦ モデルを通して予測がどう進んでいったかを追える 層 86 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は Layer 1 予測ヘッド 東京 予測ヘッド 、 予測ヘッド 、 予測ヘッド 首都 予測ヘッド 東京 予測ヘッド 東京 予測ヘッド 東京 既に4層目あたりで 正しい予測に辿り 着けているのか💡 序盤層ではまだ bigram っぽい 予測だな🧐 nostalgebraist, interpreting GPT: the logit lens (blog post 2020)
  69. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 中間表現を語彙に紐づける • 各層の中間表現を予測ヘッドに渡して語彙に紐づける (Logit

    Lens [nostalgebraist’20]) ◦ モデルを通して予測がどう進んでいったかを追える 最終層の予測トークンが
 各層では第何候補か 
 nostalgebraist, interpreting GPT: the logit lens (blog post 2020) 87 各層でのトップ予測トークン 
 Skip
  70. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 中間表現を語彙に紐づける 各層でのトップ予測トークン 
 Wendler+,

    Do Llamas Work in English? On the Latent Language of Multilingual Transformers (ACL 2024) 層 88 • 各層の中間表現を予測ヘッドに渡して語彙に紐づける (Logit Lens [nostalgebraist’20]) ◦ モデルを通して予測がどう進んでいったかを追える ◦ 非英語言語を処理する際、中間層では英語 (第一言語?) で意味処理をしている? [Wendler+’24] Skip
  71. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 モジュール出力を語彙に紐づけて分析する 89 • 各モジュール

    (注意ヘッド、フィードフォワードネット) の出力を予測ヘッドに渡して 語彙に紐づける ◦ 各モジュールが予測にどんな影響を与えたのか 層 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は Layer 1 予測ヘッド 東京 予測ヘッド 東京 この注意ヘッドは 正しい予測に寄与 していそうだな💡 このフィードフォ ワードネットは 予測を惑わしてい るかも🧐 2番目の 注意ヘッド 抽出 出力 予測ヘッド パリ フィードフォ ワードネット 抽出 出力
  72. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Geva+, Transformer Feed-Forward Layers

    Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析す る • 観察:フィードフォワードネット (2層MLP) は注意機構と似ている 91
  73. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Geva+, Transformer Feed-Forward Layers

    Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析す る • 観察:フィードフォワードネット (2層MLP) は注意機構と似ている 92 注意機構
 
 • Queryベクトルが入力される • Keyベクトルたち (文脈情報たち) との
 内積で注意重みを計算 
 • 各Valueベクトルを、対応する注意重みをか けながら総和
  74. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Geva+, Transformer Feed-Forward Layers

    Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析す る • 観察:フィードフォワードネット (2層MLP) は注意機構と似ている 93 フィードフォワードネット • 中間表現が入力される • 1つ目の重み行列の列たちとの内積で活 性化値を計算
 
 • 2つ目の重み行列の各列(ベクトル)を、
 対応する活性化値をかけながら総和
  75. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Geva+, Transformer Feed-Forward Layers

    Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析す る • 観察:フィードフォワードネット (2層MLP) は注意機構と似ている 94 周囲の単語表現から 情報を集める 重みパラメータから 情報を集める
  76. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Geva+, Transformer Feed-Forward Layers

    Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析す る • フィードフォワードネット (2層MLP) は記憶装置 ◦ 1つ目の重み行列との内積 (活性化値) は 特定の入力パターンに反応 ▪ 特定の n-gram ▪ 特定のトピック ◦ 2つ目の重み行列の各列(ベクトル)は 特定単語の予測を導く ▪ 各列を埋め込み行列に射影して、 どんな語彙の情報を記憶 & 誘導するか特定 95 関係知識や頻出表現などの情報をパラメータに 保存し、入力に応じて必要な情報を表現に付加
  77. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 計算過程の解釈・解析 • 注意パターン の観察

    ◦ 文脈情報をどう参照しているのか? ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響 度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワーク の同定 ◦ Circuit Analysis 96
  78. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 モデル全体を数学的に分解して影響度を測定 • モデルの出力を「4つの項の足し算」で表して分析 ◦

    ある層の表現 = 入力埋め込み表現         + Σ 各注意機構の出力         + Σ 各フィードフォワードの出力         + バイアス項たち • 分析例 ◦ 各層においてどの項が支配的か ◦ 各項は単体で、または、他の項との組み合わせで タスクがどれほど解けるか (どの項が重要?) 97 Mickus+, How to Dissect a Muppet: The Structure of Transformer Embedding Spaces (TACL 2022) Ferrando+, Explaining How Transformers Use Context to Build Predictions (ACL 2023) [Mickus+’22]
  79. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 モデル全体を数学的に分解して影響度を測定 • モデルの出力を「4つの項の足し算」で表して分析 ◦

    ある層の表現 = 入力埋め込み表現         + Σ 各注意機構の出力         + Σ 各フィードフォワードの出力         + バイアス項たち 98 Mickus+, How to Dissect a Muppet: The Structure of Transformer Embedding Spaces (TACL 2022) [Mickus+’22] 各層の表現を形成する 上でどの項が支配的か BERT で穴埋めを解く際に フィードフォワードネット が有益っぽい
  80. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 モデル全体を数学的に分解して影響度を測定 • モデルの演算処理全体を各入力トークンに紐づく足し算にまとめる ◦

    モデルの予測 (出力ラベルへのロジット) = Σ 各入力トークンの寄与 ◦ Transformer モデル全体を線形演算とみなしてひたすら分配則 ▪ 活性化関数を線形近似、または、ReLU に置換 ▪ 注意重みなどを定数とみなして、 計算過程を考えない ◦ 勾配を使った寄与計算手法たち (Integrated Gradients など) よりも 忠実な入力寄与を算出可能 各入力単語の寄与 @感情分類タスク w/ BERT 
 99 [Modarressi+’23; Yang+’23] Modarressi+, DecompX: Explaining Transformers Decisions by Propagating Token Decomposition (ACL 2023) Yang+, Local Interpretation of Transformer Based on Linear Decomposition (ACL 2023)
  81. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 途中計算や出力ベクトルに介入して、 出力 (ロジット,

    タスク性能, 表現) の変化を測る → 影響度 (重要度) や特定の振る舞いとの因果関係 ◦ 特定の注意重みを大きく/小さくする介入 ◦ フィードフォワードネットの 特定の活性化値を大きく/小さくする介入 ◦ 注意機構/フィードフォワードネットの 出力ベクトルに介入 ▪ ゼロベクトルに置き換え (枝刈り; Pruning) ▪ 複数入力での出力平均で置き換え ▪ ランダムな他の入力に対する出力で置き換え ▪ 特定の方向成分を足したり潰したりする 介入で特定モジュールの出力への影響度を測る 100 層 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は Layer 1 予測ヘッド 東京 層 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本 の 首都 は Layer 1 予測ヘッド 大阪 🔨
  82. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 事実性を司る注意ヘッド • 一部の注意ヘッドの出力は、入力テキストが「事実」か「誤り (誤解)

    」か を判別する情報を多く含んでいる • これらの注意ヘッドの出力ベクトルに対して特定の方向成分 (事実性方向) を 足す介入をすると、より事実に基づいた出力を生成するように制御できた 101 Li+, Inference-Time Intervention: Eliciting Truthful Answers from a Language Model (NeurIPS 2023) 元の出力 +介入 介入後の出力
  83. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 計算過程の解釈・解析 • 注意パターン の観察

    ◦ 文脈情報をどう参照しているのか? ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響 度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワーク の同定 ◦ Circuit Analysis 102
  84. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Wang+, Interpretability in the

    Wild: a Circuit for Indirect Object Identification in GPT-2 Small (ICLR 2023) Circuit Analysis (回路分析) • モデル内で特定の機能を実現しているサブネットワーク (Circuit; 回路) を特定 ◦ 層を跨いだ複数のモジュール (注意ヘッド、フィードフォワードネット) からなる 回路など、より大きなまとまりでの処理を特定していく ◦ 主にここまでに説明した手法たちを組み合わせることで特定・検証される 103 Geva+, Dissecting Recall of Factual Associations in Auto-Regressive Language Models (EMNLP 2023)
  85. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Elhage+, A Mathematical Framework

    for Transformer Circuits (Transformer Circuits Thread 2021) Induction heads:2つの注意機構によるコピー機 能 • 文脈内に一度登場したパターンを2つの注意機構でコピーできる ◦ 例:入力 “A B C D A” の続きを予測する際に、文脈内の “A B” からコピーして “B” を出す • コピー手順    1. 各トークン表現に左隣のトークン情報を集めておく    2. 1で集めた情報を Query トークンと照合し、前回出現時の右隣トークン情報を集める 104
  86. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 複雑なコピーも実現 ◦ 3単語以上のパターンに対するコピー

    ◦ 類似パターンを参照するソフトなコピー 厳密なコピー
 ソフトなコピー
 4単語のソフトなコピー
 4値分類タスクでの
 In-Context Learning 
 • 月 動物: 0 • 月 果物: 1 • 色 動物: 2 • 色 果物: 3 赤いハイライトは
 ある注意機構による注意重み
 105 Olsson+, In-context Learning and Induction Heads (Transformer Circuits Thread 2022) Induction heads:2つの注意機構によるコピー機 能 Skip
  87. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 Induction heads:2つの注意機構によるコピー機 能 •

    このコピー機能が In-Context Learning 能力の鍵とされている • モデルの訓練過程において Induction heads が学習されるタイミングと In-Context Learning 能力が向上するタイミングが経験的に一致 106 Olsson+, In-context Learning and Induction Heads (Transformer Circuits Thread 2022) 損失 ICL スコア Induction heads スコア 訓練トークン数 訓練トークン数 訓練トークン数
  88. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ある入力テンプレートでの間接目的語 (人名) の予測は3ステップの回路 1.

    特定の注意ヘッドが複数回登場した人名を特定 2. 特定の注意ヘッドがその人名情報を最後尾の表現に集める 3. 特定の注意ヘッドが一度しか登場していない人名を参照してコピーする 間接目的語 (人名) の予測を実現する回路 107 Wang+, Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 Small (ICLR 2023) Skip
  89. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 ある入力テンプレートでの単純な事実知識の 予測は3ステップの回路    (A)

    序盤層のフィードフォワードネットで 主語の情報をリッチにする    (B) 序盤層の注意機構でエンティティ間の関係に ついての情報を最後尾の表現に集める    (C) 終盤層の注意機構で主語のリッチな情報から、 必要な情報をピンポイントに集めてくる 事実知識の予測を実現する回路 108 Geva+, Dissecting Recall of Factual Associations in Auto-Regressive Language Models (EMNLP 2023)
  90. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 計算過程の分析手法まとめ • 注意パターン の観察

    ◦ 構文情報・意味情報に紐づく参照 ◦ 近い文脈・遠い文脈・長文脈で必要情報を参照する注意ヘッド ◦ 文頭などをゴミ箱として扱う • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響 度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワーク の同定 ◦ コピー機能や事実知識の予測を実現する回路の特定 109
  91. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 “1879” 1879 “Albert Einstein”

    1800 1900 内部機序の解析と解釈 解釈 1875 解析 “Isaac Newton” 1880 111 超多パラメータ・非線形の 複雑な言語モデル そのままでは理解困難 解析(抽象化・単純化) モデル内部の表現や計算を 人間が理解できるレベルまで 抽象化・単純化 解釈(意味付け) 取り出した表現や計算を 言語・世界・知識 に対応させる “When was Einstein born?”
  92. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 仮説1:モデルは世界の共起構造を保存する 「プラトン的表現」仮説 • 世界の情報が各モダリティのデータとして

    転写されている • 学習データに含まれる世界の共起情報 を モデルが学習している • → 各モデルが学習する表現は,世界の構造 と同型 114 Hu et al., 2024: Position: The Platonic Representation Hypothesis 世界に含まれる共起情報(例:青いコーンと赤い球の共起)は, 画像モダリティにも言語モダリティにも含まれる =各モダリティのデータにはこの世界の共起構造が写し取られている 各モダリティのモデルはデータから世界の共起構造を学習する
  93. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 同型性に基づく対応づけ(解釈)ができる 115 Abdou et

    al. 2021, Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color (CoNLL 2021) 言語モデル で色の名前を エンコードした内部表現 ……同士の類似度 色空間 (CIELAB; L*a*b*) (= 世界) での色の表現 ……同士の類似度
  94. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 仮説2:言語を発する人の集団が世界に接地 「集合的予測符号化」仮説 • 言語モデル

    は直接的には世界と接していないが, センサー・アクチュエータ系としてのヒトの集団は世界と接している • このヒトの集団が世界と接しながら言葉を紡いで残したのがコーパス • 映画『マトリックス』の世界のように, 巨大な脳としてのコーパス/言語モデルが, “ロープ” で繋がれた人間の集団を介して世界と接している? 116 Taniguchi+, Generative Emergent Communication: Large Language Model is a Collective World Model (arXiv 2025-01) Skip
  95. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 内部表象が世界の構造を捉えている ⇔ 予測が汎 化

    世界の構造が言語モデルに転写されていることの実用的側面: 内部表象が世界の構造を捉えている ⇔ モデルの予測が汎化する 118 Liu et al., 2022: Towards Understanding Grokking: An Effective Theory of Representation Learning 例:mod 60 の足し算を学習したモデルの表現空間 (たとえば時計の秒針や分針の位置) 予測が汎化できている ⇔ 表現空間で世界(=mod 60の足 し算)が捉えられている
  96. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 言語学的仮説の検算器になるかもしれない • in silico

    の(=計算機内での;言語モデル で実現している)言語機能・能力  ↕ in vivo の(=生体内での;ヒトの脳で実現している)言語機能・能力 という対比ができる • 言語モデルの内部表現・計算過程 を通して,言語学的仮説が リアル・パターン (デネット) として浮かび上がるかもしれない 119 Futrell & Mahowald, 2025: How Linguistics Learned to Stop Worrying and Love the Language Models
  97. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 “1879” 1879 “Albert Einstein”

    1800 1900 内部機序の解析と解釈 解釈 1875 解析 “When was Einstein born?” “Isaac Newton” 1880 122 超多パラメータ・非線形の 複雑な言語モデル そのままでは理解困難 解析(抽象化・単純化) モデル内部の表現や計算を 人間が理解できるレベルまで 抽象化・単純化 解釈(意味付け) 取り出した表現や計算を 言語・世界・知識 に対応させる 暗黙的な仮定: 概念・機能の局所性 暗黙的な仮定: 内部表現と対応物の一対一対応
  98. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 暗黙的な強い仮定:機能の局在性・一対一対応 言語モデルの内側でこういうことが起きていると仮定している • 何らかの概念や機能に対応する内部機序(内部表現・計算機構)は,

    人間にわかる程度の抽象度のパーツに局在化して埋め込まれている ◦ ニューロン,ベクトル,サーキット,…… ◦ あるいは,辞書学習等を通してこの状態まで「ほどく」ことができる • 何らかの概念や機能 ↔ 対応する内部機序(内部表現・計算機構)は, 一対一に対応 する • ……本当にこの考え方は妥当なのか? 123
  99. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 暗黙的な強い仮定:機能の局在性・一対一対応 言語モデルの内側でこういうことが起きていると仮定している • 何らかの概念や機能に対応する内部機序(内部表現・計算機構)は,

    人間にわかる程度の抽象度のパーツに局在化して埋め込まれている ◦ ニューロン,ベクトル,サーキット,…… ◦ あるいは,辞書学習等を通してこの状態まで「ほどく」ことができる • 何らかの概念や機能 ↔ 対応する内部機序(内部表現・計算機構)は, 一対一に対応 する • ……本当にこの考え方は妥当なのか? 124
  100. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 SAE (Sparse Autoencoders) の気持ち

    • とくに 概念の数 > モデル次元の場合,表現の重ね合わせが起きる ◦ superposition • 辞書学習を通して,何らかの概念や機能に対応するパーツを局在化できる ◦ polysemanticity → monosemanticity 125 Bereska & Gavves, 2024: Mechanistic Interpretability for AI Safety -- A Review Chanin et al., 2024: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
  101. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 SAE (Sparse Autoencoders) の気持ち…?

    • 実際の SAE は,解釈し難い概念の集合を取り出してしまう ◦ feature absorption ◦ 「“laser” と “lions” 以外の “L” で始まるtoken」に発火する SAE 特徴…? 🤔 • ヒトの持つ概念 ↔ 言語モデルが持つ概念の対応が取れるという強い仮定 🤔 126 Bereska & Gavves, 2024: Mechanistic Interpretability for AI Safety -- A Review Chanin et al., 2024: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
  102. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 実際のデータの埋め込まれ方は複雑 Marjieh et al.,

    2025: What is a Number, That a Large Language Model May Know It? 127 数値とその連続 的な描像が, 直接モデルに埋 め込まれている としたら…… 文字列としての編集距離が直接モデルに 埋め込まれているとしたら…… 実際のモデルにはその両方+α が埋め込まれている Skip
  103. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 同じ計算過程を表す回路が複数存在し得る Méloux et al.,

    2025: Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable? 128 多層ニューラルネットで XORを計算させよう AND/ORレベルの 可能なアルゴリズムが 複数存在 これを実現するサーキット は数十種類存在
  104. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 “実際の” 計算メカニズムすら複数存在し得る Ortu et

    al., 2024: Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals 129 iPhoneはGoogleが開発しました iPhoneはどの会社が開発しましたか? 可能な回答機序1:コーパスの知識を思い出す 可能な回答機序2:in-contextで教えてもらった情報を返す
  105. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 の “1879” 1879 “Albert

    Einstein” 1800 1900 内部機序の解析と解釈 解釈 1875 解析 “When was Einstein born?” “Isaac Newton” 1880 131 超多パラメータ・非線形の 複雑な言語モデル そのままでは理解困難 解析(抽象化・単純化) モデル内部の表現や計算を 人間が理解できるレベルまで 抽象化・単純化 解釈(意味付け) 取り出した内部表現や計算過程を 言語・世界・知識 に対応させる 「表現と計算 」という 計算機科学・計算論的**学の 標準的な見方 を通して 言語モデルを捉えようとしてきた
  106. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 暗黙的な強い仮定:言語モデル as 表象計算機 •

    言語モデルの内側でこういうことが起きていると仮定している ◦ 内部 “表象” : 言語・世界に関する何かに対応する表現 ◦ 計算過程: その何かが計算によって処理される • ……本当にこの考え方は妥当なのか? 132
  107. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 表象も持たず計算もしないシステム ワットの遠心調速機 • 蒸気機関の出力を一定に保つ機構

    ◦ 速い → 重りが外側に → 出力を抑制 ◦ 遅い → 重りが内側に → 出力を促進 • これは表象計算機では全くない ◦ 速度に対応する表象・パーツ: ない ◦ 出力制御のための計算: していない • これをif/thenの計算機構と解釈…? • ☹ 対象を「表現と計算」という見方で  解釈しようというという指針自体が  芯を外している可能性 • 「ニューラルネットはこうした動的 システムと記号処理系の間くらい?」 133 Van Gelder, 1995: What Might Cognition Be, If Not Computation?
  108. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 それを作った仕組みが見えなくなるほど複雑な系 • 言語モデル ◦

    作った仕組み :言語モデルを学習するためのコード(数百行;相対的に簡単 ) ◦ 作られた系 :学習された言語モデル(100億〜パラメータ;相対的に複雑 ) • ライフゲーム(Conway's Game of Life)と同様 • 言語モデル(=学習の結果;非常に複雑な系)だけを見ていても, 表現・アルゴリズムレベルの理解は得られないのでは? 134 簡単なルール 複雑な挙動 Lilicrap & Kording, 2019: What does it mean to understand a neural network?
  109. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 理解のための方法とシステムのアンマッチ • Q. 計算神経科学の方法論でドンキーコングのマイコンを理解できるか?

    • 発見:「ここのニューロンを抑制すると     ドンキーコングが起動できなくなる     これがドンキーコングニューロンだ」 • 実際:任意のゲームで利用される全加算器 • ドンキーコングのプログラムに迫れていない • 表現と計算の本当の構成概念を見つけ,かつ, それだけを切り出す形で分析することは可能か? 135 ≈ 我々が持っている モデルの解釈性の方法論 ≈ 人工ニューラルネットで 作られた言語モデル Jonas+, Could a neuroscientist understand a microprocessor? (PLoS computational biology 2017)
  110. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 解釈性と説明可能性 • 解釈性 システムに対する何らかの洞察を与える何か

    • 説明可能性 具体的なステークホルダーに対して彼ら彼女らがわかる形で洞察を提供 137 Calderon & Reichart, 2024: On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs
  111. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 解釈性と説明可能性 138 ステークホルダー:“工学的” な関心を持つ人

    目的:評価,デバッグ,汎化,知識編集,… Calderon & Reichart, 2024: On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs ステークホルダー:“理学的” な関心を持つ人 目的:理論の整備,新発見,仮説生成,… こちらにも膨大な領域 ステークホルダー:ビジネスに関心を持つ人,社会全体 目的:意思決定,信頼性,安全性,公平性,……
  112. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 例1:ゴールデンゲートブリッジ特徴(再掲) • Claudeの表現空間内に, ゴールデンゲートブリッジの

    話題や画像にだけ選択的に 反応する特徴量がある • この特徴を増幅させると, 言語モデルが「我こそは ゴールデンゲートブリッジ である」などと言い始める https://transformer-circuits.pub/2024/scaling-monosemanticity 140 Q. あなたはどういう身体 を持っているの? A. 持っていません.   私は人工知能です. A. 我こそがゴールデン ゲートブリッジなり.
  113. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 • 言語モデルの活性化空間に「時間軸」を表す部分空間が存在. • 有名人の名前をモデルにエンコードした上で,その内部表現を「時間軸」に

    沿って動かすと,出力されるこの有名人の生まれ年が変わる. 例2:時間を司る「軸」の存在(再掲) Heinzerling & Inui 2024: Monotonic Representation of Numeric Properties in Language Models 141 Q. カールポパーの生まれ年は? A. 1902 誕生年軸を手前に動かすと… 誕生年軸を奥側に動かすと… A. 1975 A. 1881
  114. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 言語モデルの内部機序:解析と解釈 — まとめ 143

    • 言語モデルの内部機序に基づく理解 — Why & How ◦ モデルの入出力は「理由」にならない → モデルの内部機序 (内部表現・計算過程) ◦ 複雑なモデル全体を理解できない → 解析 (抽象化・単純化) ◦ 表現・計算を世界に紐付けて理解したい → 解釈 (言語・世界・知識との接続) • 内部表現の解析・解釈 ◦ スカラーの分布・ベクトル群の分布・ベクトル群の幾何的構造 ◦ プローブ・辞書学習・介入 • 計算過程の解析・解釈 ◦ 注意の観察・語彙空間への射影・出力への影響度・サブネットの同定 • 解釈(言語・世界・知識との対応づけ),再考 ◦ 世界の構造がモデルに写し取られていると信じられる理由・嬉しさ • 内部機序の解析・解釈という方法の限界 ◦ 局所性/一対一対応?・表現と計算?・解釈は誰のため?
  115. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」 謝辞 • ⾔語処理学会第31回年次⼤会 (NLP2025)

    の委員の皆さまに感謝します. とくに,複数のスピーカーという例外的な形式へのご対応に感謝します. • 日常的な研究議論にお付き合いくださっている多くの友人・同僚・研究者 仲間に,とくに,我々3名の出会いの場でもあった東北NLPグループの皆様 に感謝します. 144