言語モデルの内部機序：解析と解釈

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」言語モデルの内部機序解析と
解釈 Benjamin HEINZERLING12，横井祥321，小林悟郎21 analysis interpretation 2025-03-10, 言語処理学会第31回年次大会 (NLP2025), チュートリアル1 1理研，2東北大，3国語研 🕰 13:00

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」スピーカー Benjamin HEINZERLING ハインツァリング
ベンヤミン理研／東北大横井祥国語研／東北大／理研小林悟郎東北大／理研 2

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」スピーカー Benjamin HEINZERLING ハインツァリング
ベンヤミン理研／東北大横井祥国語研／東北大／理研小林悟郎東北大／理研 3 3人で話します新しい技術・潮流・参入プレイヤーがどんどんでてくる分野ですし，しかも大規模言語モデルの登場でこの傾向が加速しています． *ACLで行われているような，スピーカー複数名での合同チュートリアルが今後どんどん増えていけば良いなと思っています．

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」チュートリアルの進め方 4

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 QA • Slack に随時気軽に質問・コメント・野次を投稿してください
◦ Slack チャンネルをできるだけリアルタイムでチェックします ▪ ラフなコメント，雑談，スタンプコミュニケーションも⼤歓迎です ◦ 拾えそうなコメント・質問は可能な範囲で拾いながら話します ◦ 多くの人が気になっていそうなコメント・質問を優先して拾います • QAタイムを設けます ◦ 適宜質問タイムを取ります ▪ 90分を超えるトークは聞き⼿がむちゃくちゃ疲れるので…… ▪ スタンプが集まっている質問を中⼼に ◦ 最後にも質問タイムをとります 5

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」スライド • Ver. 1
: 事前配布版 ◦ 学会参加者への事前配布版 • Ver. 2 : 当日利用版 ◦ https://speakerdeck.com/eumesy/analysis_and_interpretation_of_language _models ◦ 今日はこちらを利用します ◦ Ver. 1 から大幅に更新しました • Ver. 3 : アーカイブ版 ◦ チュートリアル中やその前後でいただいたコメントへの回答を，後日反映予定です ◦ ぜひ気軽に質問・コメントを Slack にお寄せください 6

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」一部スライドをスキップしながら進めます • 時間内に説明しきれない内容はスキップします •
興味深い具体例や余談など，泣く泣く削った内容です • ご興味のある方は後からご覧になってください 7 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」言語モデルの内部機序の理解 Why &
How 8

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」例1：ゴールデンゲートブリッジ特徴 • Claudeの表現空間内に，ゴールデンゲートブリッジの
話題や画像にだけ選択的に反応する特徴量がある • この特徴を増幅させると，言語モデルが「我こそはゴールデンゲートブリッジである」などと言い始める https://transformer-circuits.pub/2024/scaling-monosemanticity 9 Q. あなたはどういう身体を持っているの？ A. 持っていません．　　私は人工知能です． A. 我こそがゴールデンゲートブリッジなり．

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 言語モデルの活性化空間に「時間軸」を表す部分空間が存在． • 有名人の名前をモデルにエンコードした上で，その内部表現を「時間軸」に
沿って動かすと，出力されるこの有名人の生まれ年が変わる．例2：時間を司る「軸」の存在 Heinzerling & Inui 2024: Monotonic Representation of Numeric Properties in Language Models 10 Q. カールポパーの生まれ年は？ A. 1902 誕生年軸を手前に動かすと… 誕生年軸を奥側に動かすと… A. 1975 A. 1881

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Q. このように言語モデルを理解・解明することがなぜ・どのように嬉しいのか
11

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ポイント1 内部機序を見る 12

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」まず，言語モデルの出力はすでに結構イケている • 流暢さ ◦
非常に低いパープレキシティ ◦ ＝次単語予測の精度が極めて高い ◦ ＝ヒトの集合が書いた大量のテキストと，　言語モデルが書いた大量のテキストとを比べると，　少なくとも「単語の並べかた」という観点では酷似する • タスク実行能力 ◦ 言語を入出力の一部に持つありとあらゆるタスクに関する高い実行能力 ◦ 「難しい」ベンチマークタスクが作られ，即時サチる/人間の能力を凌駕する， ……の繰り返し 13

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」タスク実行能力をチェックするやり方の限界機械翻訳対話システム A
popular hypothesis to explain... 記録的猛暑を説明する有力な仮説… 地獄がすぎる。一旦飲み行こ。明日… 昨日の修論審査でやべえ突っ込み… 14

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」タスク実行能力をチェックするやり方の限界機械翻訳対話システム A
popular hypothesis to explain... 記録的猛暑を説明する有力な仮説… 地獄がすぎる。一旦飲み行こ。明日… 昨日の修論審査でやべえ突っ込み… 中国人の部屋 [1980] 巨大なルールブックを持っているだけ？ブロックヘッド [1981] 巨大なルックアップテーブルを持っているだけ？ → 行動主義（入出力のチェック）への批判言語モデルは「何もわかっていない」かもしれない 15 Searle, 1980: Minds, brains, and programs Block, 1981: Psychologism and Behaviorism

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」行動主義から内部機序の理解へ • 多くのベンチマークタスクは行動主義的
◦ 例：チューリングテスト ◦ 入力を入れて適切な出力が得られるかをテスト ◦ ※ NLP はタスク（入力 → 出力集）とモデルの相互の発展で進んできたものの • 「このモデル，本当に分かっている……？」という疑念が残る ◦ 言語・世界について正しく理解した上で，適切な機序に基づいて解いている？ ◦ 不適切なチートをおこなっていて，ちょっと形式が変わったら解けなくなる？ • 解決策のひとつ：適切な内部状態を持っているかどうかも併せて確認する 16 ポイント1：内部を見る Block, 1981: Psychologism and Behaviorism Dowe et al., 1998: A Non-Behavioural, Computational Extension to the Turing Test

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ポイント2 抽象化・単純化 17

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ホワイトボックスな言語モデルも全然わからない • モデルを理解することは，しばしばブラックボックスを開くことに喩えられる
◦ ウェブインタフェースやAPIを通してアクセスする言語モデルは，たしかにブラックボックス ▪ e.g. ChatGPT by OpenAI ◦ 言語モデルの解釈性を牽引してきた BlackboxNLP • しかしよく考えると…… • ホワイトボックスの言語モデルはたくさんある： ✔ 計算グラフ全体 ✔ 学習された重みパラメータ全体 ✔ 入力の各層・モジュールにおける内部状態 ✔ 介入すら可能 • ……のに，これらの情報を見ても全然わかった気がしない 18

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ホワイトボックスでも解釈できると嬉しい No thank you...
パラメータ全体を見せられる Good! 「BERTの浅い層では品詞タグ付けを，深い層では共参照解析をしているっぽい」[Tenney+ACL’19] 19

パラメータ全体を見せられる Good! 「BERTの浅い層では品詞タグ付けを，深い層では共参照解析をしているっぽい」[Tenney+ACL’19] 20 これがどうつらいのか

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」「パラメータを全部見る」はつらい • 「対象を理解する」＝「対象を要素還元的に
　構成要素に帰着させて理解する」？ • 一番小さい要素であるニューロンについてわれわれは全部見えている ◦ 各モデルパラメータの値がわかる ◦ 入力に対する内部状態の値もわかる • ……それでも何もわからない ◦ 人間は複雑なモデルを丸呑みできない • 超多パラメータ非線形系である言語モデルを理解するために，より粗い粒度で捉える必要性 ◦ 抽象化 ◦ 単純化 21

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」知りたいのはおそらくアルゴリズムと表現の階層デビッド・マーの3つのレベル • 計算のレベル
◦ ≈ 外部仕様 ◦ このプログラムの目的・入出力 ◦ ここはわかっている — 目的関数，タスク • アルゴリズムと表現のレベル ◦ ≈ 疑似コード・抽象的なプログラム ◦ 抽象化された表現，抽象化された計算 ◦ ここがわからない • ハードウェア実装のレベル ◦ ≈ メモリに書き込まれたデータ・プログラム ◦ 「物理」実装 ◦ ここもわかっている — 生の内部表現，計算グラフ Image: Guo et al., 2021 22 計算論的な視覚・神経科学の祖

パラメータ全体を見る Good! 「BERTの浅い層では品詞タグ付けを，深い層では共参照解析をしているっぽい」[Tenney+ACL’19] 😀 人間にわかる粒度に抽象化・単純化 23 ポイント2：抽象化・単純化する

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ポイント3 世界との接続 24

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」表現と計算を抽象化するだけでは足りない • われわれが知りたいのは，抽象的な表現・計算だけではない •
その表現・計算が，言語・世界・知識に関して何を表現・計算しているのかを知りたい • 🤨 Aの表現とBの表現を足すとCの表現が計算できる • ☺ “royal”の表現と“woman”の表現を足すと“queen”の表現が計算できる 25

パラメータ全体を見る Good! 「BERTの浅い層では品詞タグ付けを，深い層では共参照解析をしているっぽい」[Tenney+ACL’19] 😀 言語・世界・知識の話に接続されている 26 ポイント3：言語・世界・知識に接続する

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」まとめ：言語モデルを理解するためにすべきこと 27

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」言語モデルの理解に向けた課題 → すべきこと 1.
モデルの入出力はモデルの出力の「理由」にならない → モデル内部の表現・計算（＝内部機序）の検討が必要 2. 人間は複雑なモデル全体をひと呑みに理解できない → 抽象化・単純化が必要 — 解析 (analysis) 3. 人間は表現・計算を世界に紐付けて理解したい → 言語・世界・知識との接続が必要 — 解釈 (interpretation) 本日のテーマ：言語モデルの内部機序：解析と解釈 analysis interpretation 28

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 “1879” 1879 “Albert Einstein”
1800 1900 内部機序の解析と解釈解釈 1875 解析 “Isaac Newton” 1880 29 超多パラメータ・非線形の複雑な言語モデルそのままでは理解困難解析（抽象化・単純化）モデル内部の表現や計算を人間が理解できるレベルまで抽象化・単純化解釈（意味付け）取り出した表現や計算を言語・世界・知識に対応させる “When was Einstein born?”

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ニューラルネットに関するちょっとした準備 30

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」主として扱う言語モデル：トランスフォーマー型 31

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」主として扱う言語モデル：トランスフォーマー型 32 日本の
首都は 1. 埋め込み化       2. 文脈単語の表現を混ぜながら各単語の表現を更新 (注意機構) 変換変換変換変換 3. 各単語の表現を個別に更新

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」主として扱う言語モデル：トランスフォーマー型 33 日本の
首都は       変換変換変換変換 4. 埋め込み表現を離散トークンに戻して次単語予測東京 1. 埋め込み化 2. 文脈単語の表現を混ぜながら各単語の表現を更新 (注意機構) 3. 各単語の表現を個別に更新

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」内部表現の解析・解釈 34
🕰 13:15

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」の “1879” 1879 “Albert
Einstein” 1800 1900 内部機序の解析と解釈 — 解釈 1875 解析 “Isaac Newton” 1880 35 超多パラメータ・非線形の複雑な言語モデルそのままでは理解困難解析（抽象化・単純化）モデル内部の表現や計算を人間が理解できるレベルまで抽象化・単純化解釈（意味付け）取り出した表現や計算機構を言語・世界・知識に対応させる内部表現編「何がどこにどう格納されていて」「それは言語・世界・知識に関する何とどう結びつくのか」 “When was Einstein born?”

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」内部表現の単位＋考える構造 •
言語モデルの内部表現を分析する単位は大きく2種類に分けられる • 特徴量を単位にした議論 ◦ ニューロンの重みや活性値 ◦ あるいは何かを1次元〜数次元の空間に射影した値 ◦ 考える構造：特徴量の値（大きさ，グラデーション） • ベクトルを単位にした議論 ◦ 現状のニューラルネットベースの言語モデルはベクトル変換器 ◦ ベクトル集合（単語表現の集合；点群）に対して様々な構造が考えられる ◦ 考える構造：分布，クラスタ構造 ◦ 考える構造：関係・タプル，木・階層，円・周期，グラフ 36

特徴量を単位にした議論 ◦ ニューロンの重みや活性値 ◦ あるいは何かを1次元〜数次元の空間に射影した値 ◦ 考える構造：特徴量の値（大きさ，グラデーション） • ベクトルを単位にした議論 ◦ 現状のニューラルネットベースの言語モデルはベクトル変換器 ◦ ベクトル集合（単語表現の集合；点群）に対して様々な構造が考えられる ◦ 考える構造：分布，クラスタ構造 ◦ 考える構造：関係・タプル，木・階層，円・周期，グラフ 37

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」特徴量の値：ニューロン分析 https://openai.com/index/unsupervised-sentiment-neuron/ 38 センチメント・感情に対応する
ニューロン

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」特徴量の取り出し方：プローブ • 教師あり
◦ 特徴量 → 対象概念の関数がよく学習できるか ◦ とても簡単なアプローチ • プローブ器の表現力の問題 ◦ 取り出そうと思えば何でも取り出せてしまう ◦ シンプルな（表現力が小さい，複雑ではない）プローブが望ましい ◦ プローブがシンプル → 内部表象がシンプル → 構造が適切にコンパクトに埋め込まれている ……と言いたくなる 39

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 40 Gurnee & Tegmark.,
2023: Language Models Represent Space and Time 特徴量の値：緯度経度のプローブ • 地名の言語モデル表現から地理座標（緯度・経度）をプローブ • プローブ器は線形 • → 地理座標はおそらく線形にエンコードされている

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 41 Heinzerling & Inui
2024: Monotonic Representation of Numeric Properties in Language Models 数値的特性の単調表現 • 言語モデルのエンティティ表現に対して、教師あり次元削減を適用 • 数値的特性は低次元の部分空間にエンコードされる Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」特徴量の取り出し方：辞書学習 SAE (Sparse
Autoencoder) の動機 • とくに概念の数 > モデル次元の場合，表現の重ね合わせが起きる ◦ Superposition • 辞書学習を通して，何らかの概念や機能に対応するパーツを局在化したい ◦ Polysemanticity: ひとつのニューロン ↔ 複数の概念・機能が混在 ◦ → Monosemanticity: ひとつの特徴量 ↔ 単一の概念・機能 42 Bereska & Gavves, 2024: Mechanistic Interpretability for AI Safety -- A Review

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 SAE (Sparse Autoencoders) の仕組み
• 隠れ状態 (activation vector) を疎なオートエンコーダーで復元　✔ 教師なし　✔ 隠れ状態よりも高次元の空間へ射影 → 重ね合わせをほどく (disentanglement) • cf. 密なオートエンコーダー … 表現の低次元圧縮 43 Cunningham et al., 2023: Sparse Autoencoders Find Highly Interpretable Features in Language Models

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 SAEの良い例：ゴールデンゲートブリッジ特徴 • Claudeの活性化空間内に，ゴールデンゲートブリッジの話題や画像にだけ選択的に反応する特徴量がある
44 https://transformer-circuits.pub/2024/scaling-monosemanticity

特徴量を単位にした議論 ◦ ニューロンの重みや活性値 ◦ あるいは何かを1次元〜数次元の空間に射影した値 ◦ 考える構造：特徴量の値（大きさ，グラデーション） • ベクトルを単位にした議論 ◦ 現状のニューラルネットベースの言語モデルはベクトル変換器 ◦ ベクトル集合（単語表現の集合；点群）に対して様々な構造が考えられる ◦ 考える構造：分布，クラスタ構造 ◦ 考える構造：関係・タプル，木・階層，円・周期，グラフ 45

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」点・クラスター構造の例：表現の分布を観察 • 中間表現たちを，人間が視覚的に理解できる低次元空間で可視化
◦ PCA ◦ t-SNE ◦ …… Cats are very cute Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 Layer 1 Kittens are adorable Kitties are sweet 46 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」点・クラスター構造の例：表現の分布を観察 • ✔ 語義クラスタが見える
• ✔ 品詞クラスタが見える 47 Reif et al. 2019: Visualizing and Measuring the Geometry of BERT Kehlbeck et al. 2021: Demystifying the Embedding Space of Language Models Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」関係・タプル：静的単語埋め込みのベクトル代数 word2vec
などの表現空間に，現実世界の関係知識が埋め込まれているしかも足し算・平行移動で表現される例：主語＋関係＝目的語 48

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」トランスフォーマー言語モデルの中での関係 𝑟 も，　　線形関数
R: 主語の表現 𝑠 → 目的語の表現 o （足し算！）でよく近似できる 49 Hernandez et al., 2023: Linearity of Relation Decoding in Transformer Language Models 関係・タプル： LMの隠れ状態のベクトル代数

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」木構造の例：構文解析木のStructural Probe Hewitt &
Manning, 2019: A Structural Probe for Finding Syntax in Word Representations 50 • 構文木での距離 ↔ 埋め込み空間での距離の対応が，埋め込みの直交変換の範囲でよくプローブできる • ＝埋め込み空間に構文情報が入っている？！ Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」階層構造の例：階層は直交性としてエンコード Park et al.,
2024: The Representation Geometry of Features and Hierarchy in Large Language Models 51 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」円形・周期的構造：mod 60 の足し算 Liu
et al., 2022: Towards Understanding Grokking: An Effective Theory of Representation Learning 52 • (59+2) % 60 = １のような mod 60 の足し算を言語モデルで学習 • 「良いモデル」の数値の内部表現は，mod をよく表す円形の分布になる

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」周期的構造 Engels et al.
2024: Not All Language Model Features Are Linear 53 事前学習済み言語モデル（GPT-2）でも，曜日などの周期的な知識は，周期状に表現されている

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」グラフ構造の例：文脈内での “表現学習” Park et
al., 2024: ICLR: In-Context Learning of Representations 54 擬似的に作った「概念グリッド」概念グリッドの隣接関係に従ってコンテクストを見せるたくさん見せると「概念グリッド」が表現空間に復元

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」「情報の保持」から「情報の利用」へ 55

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」そもそも「内部表現」の「表現」とは何なのか Hardingが提案した基準「活性化パターンHが特徴Zの表現である」とは？ 1.
情報 (Information) 活性化パターンHは，特徴Zに関する情報を含んでいる = うまくプローブできる 2. 使用 (Use) 活性化パターンHは，タスクDを実行するために使用される＝活性化パターンを抑制するとモデルの性能が落ちる 3. 誤表現 (Misrepresentation) 活性化パターンH(s)は，入力sが本来持っている特徴ZではないZ’を表現できる＝入活性化パターンをZ’を持っているかのように反事実的に編集 (介入) すると，　あたかも入力/特徴が変わったかのようにモデルの出力が変化する 56 Harding, 2023: Operationalising Representation in Natural Language Processing

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」「情報を持っている」ら「それが使われている」へプローブ等による内部表現の観察は統計的な状況証拠にすぎない
内部表現がエンコードされる情報がモデルの計算過程に利用される（出力に寄与する）とは限らない ⇒プローブが成功したら、次のステップは因果的介入によって出力への影響を観察 57 生まれ年と高い相関性を示す活性化空間の方向

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」代表的な因果的介入手法：Activation Patching Activation: ある層やモジュールの活性
Patching: あるレイヤー、モジュールなどの隠れ状態を移植する移植の効果を見て、内部表や計算過程について考察する： • 移植後もBobを出力 →「Bob」が移植レイヤーより遅くコピーされる？ • 移植後にJohnを出力 →移植レイヤーまでコピーされた？ 58 Zhang & Nanda, 2023: Towards Best Practices of Activation Patching in Language Models: Metrics and Methods パッチ Bob? John?

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」例1：ゴールデンゲートブリッジ特徴 • Claudeの表現空間内に，ゴールデンゲートブリッジの
話題や画像にだけ選択的に反応する特徴量がある • この特徴を増幅させると，言語モデルが「我こそはゴールデンゲートブリッジである」などと言い始める https://transformer-circuits.pub/2024/scaling-monosemanticity 59 Q. あなたはどういう身体を持っているの？ A. 持っていません．　　私は人工知能です． A. 我こそがゴールデンゲートブリッジなり． Activation patching で増幅

沿って動かすと，出力されるこの有名人の生まれ年が変わる．例2：時間を司る「軸」の存在 Heinzerling & Inui 2024: Monotonic Representation of Numeric Properties in Language Models 60 Q. カールポパーの生まれ年は？ A. 1902 誕生年軸を手前に動かすと… 誕生年軸を奥側に動かすと… A. 1975 A. 1881 Activation patching で表現を動かす

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」例3：さらに抽象的な概念の制御「回答の拒否」方向 • 言語モデルは有害な質問や要請に対する回答を拒否するよう事後学習される
• 回答を拒否するかどうかを表現する方向が存在 [Arditi+’24] ◦ 有害な入力集合と無害な入力集合で、中間表現の平均差分ベクトル (振る舞い方向) を算出 • 推論中の中間表現に対し、この方向を伸ばしたり潰したりする介入で ◦ 有害な入力に対して拒否を回避できる (左図) ◦ 無害な入力に対して拒否を強制できる (右図) 61 Arditi+, Refusal in Language Models Is Mediated by a Single Direction (NeurIPS 2024) Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」計算過程の解析・解釈 62
🕰 13:30

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」主として扱う言語モデル：トランスフォーマー型 (再掲) 63
日本の首都は       変換変換変換変換 1. 埋め込み化 2. 文脈単語の表現を混ぜながら各単語の表現を更新 (注意機構) 3. 各単語の表現を個別に更新

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」内部の計算過程について理解を深めたいトランスフォーマーの絵を見ると，計算過程について何となく理解できているように見える...？ (「混ぜて変換してるのね」)
→ これだけでは具体的な内部挙動や処理過程は理解できない • 各層やモジュールは具体的にどんな処理をしているのか？ ◦ どんな入力に対して、どの層で、どんな文脈情報を参照する？ ◦ ベクトル変換は実際のところどういう役割？ • モデル内でどのように情報が流れるか？ • 各計算機構や表現は予測にどれほど影響を及ぼすか？予測のプロセスをトラックできるか？ • 特徴的な（＝ある意味で異常な）処理過程が学習されていないか？ 64

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」モデル内部の計算過程を解析する手法群言語モデルの計算過程を分析する手法は大きく4種類に分けられる • 注意パターン
の観察 ◦ 文脈情報をどう参照しているのか？ ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワークの同定 ◦ Circuit Analysis 65

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」計算過程の解釈・解析 • 注意パターンの観察
◦ 文脈情報をどう参照しているのか？ ◦ 特徴的な注意ヘッドの存在 ◦ ゴミ箱機能 • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワークの同定 ◦ Circuit Analysis 66

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」注意パターンの観察 • トランスフォーマーの核は注意機構＝
文脈情報への動的な参照が重要 • 各層の注意機構が文脈情報をどのように参照したのか • 注意重み (Attention weights) の観察が最も典型的な方法 ◦ 注意マップ（Attention map）として可視化されることが多い注意機構での文脈参照パターンを観察例：“は” が “首都” を  強く参照 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は日本の首都は日本の首都は Layer 1 67

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」文脈情報をどう参照しているのか？ • 構文情報に紐づく参照 ◦
品詞 68 Vig&Belinkov, Analyzing the Structure of Attention in a Transformer Language Model (BlackboxNLP2019) 層ヘッド特定の品詞 (名詞や動詞など) を強く参照するヘッドがある

品詞 ◦ 依存関係 [Vig&Belinkov+’19] [Clark+’19] 特定の品詞へ強く注目するヘッドがある特定の依存関係にある単語間で強く参照するヘッドがある 69 Vig&Belinkov, Analyzing the Structure of Attention in a Transformer Language Model (BlackboxNLP2019) Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019)

品詞 ◦ 依存関係 • 意味情報に紐づく参照 ◦ 意味フレーム意味フレームにおける要素間で強く参照するヘッドがある 70 Kovaleva+, Revealing the Dark Secrets of BERT (EMNLP 2019)

品詞 ◦ 依存関係 • 意味情報に紐づく参照 ◦ 意味フレーム ◦ 共参照共参照の関係にある単語間で強く注目するヘッドがある 71 Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 近くの情報を参照する (Local Attention)
◦ 隣接する数トークンを強く参照するヘッドが多く存在 [Clark+’19; Fu+’24] • 文脈を広く参照する (Global Attention) ◦ 入力に応じて文脈を広く参照するヘッドも存在 [Fu+’24] 近い文脈の参照・遠い文脈の参照 [Fu+’24] 72 Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019) Fu+, MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression (arXiv 2024)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 長文脈において必要な情報をピンポイントに参照するヘッドが存在 ◦ 長文脈タスクで重要な働き
(ヘッド削除すると性能劣化) ◦ Chain-of-Thought による推論でも強く影響 Retrieval heads: 長い文脈から局所的な必要情報を参照する Wu+, Retrieval Head Mechanistically Explains Long-Context Factuality (ICLR 2025) 10万トークン以上も離れた必要情報をピンポイントに参照 73

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」奇妙な傾向：文頭などへの過剰な参照 • 文頭・文末・区切り記号 (句読点や改行)
に注意重みが偏る [Clark+’19] [Clark+’19] [Xiao+’24] 74 [Clark+’19; Vig&Belinkov’19; Xiao+’24] Clark+, What Does BERT Look at? An Analysis of BERT’s Attention (BlackboxNLP 2019) Vig&Belinkov, Analyzing the Structure of Attention in a Transformer Language Model (BlackboxNLP2019) Xiao+, Efficient Streaming Language Models with Attention Sinks (ICLR 2024)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Kovaleva+, Revealing the Dark
Secrets of BERT (EMNLP 2019) 注意パターンの大分類 • BERT では注意パターンは大きく5パターンに分類できる [Kovaleva+’19] ◦ Vertical：文頭・文末・区切りなど一部のトークンばかりを強く参照する縦線型 ◦ Diagonal：隣接数トークンを強く参照する階段型 ◦ Vertical + Diagonal：上記2つの組み合わせ (縦線+階段型) ◦ Block：[SEP] で区切られた二つのテキスト内で参照し合う (ブロック型) ◦ Heterogeneous：その他 75 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」複数ヘッドの注意パターンを統合する (抽象化) • 各ヘッド毎ではなく、複数ヘッドでまとめた注意パターンも観察したい
◦ 同じ層であれば、複数ヘッドの注意重み行列を平均して観察するケースが多い Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は Layer 1 各ヘッドの注意パターン平均 76 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」複数ヘッドの注意パターンを統合する (抽象化) • 層を跨ぐ場合にはどうすれば良い？
→ 行列積で累積（Attention Rollout） [Abnar&Zuidema’20] Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は Layer 1 各ヘッドの注意パターン平均対角行列を足して2で割る (残差結合を近似的に考慮) 2 2 2 2 2 2 行列積で累積 (下層から伝播) Abnar&Zuidema, Quantifying Attention Flow in Transformers (ACL 2020) 77 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 注意重みを「モデルの振る舞い」や「予測の説明」として解釈してよいのか、 RNN+Attention の時代から議論がある
◦ 注意重みの値を置き換えても予測が大して変わらない ◦ タスクの重要情報に注意重みを割り振らない損失で学習しても、間接的に重要情報にアクセスして十分なタスク性能を達成できる [Pruthi+’20] • 注意重みを拡張した手法が提案されている ◦ 注意重みから後段計算において本質的でない成分を除去する [Brunner+’20] ◦ Value ベクトルのノルムを考慮する [Kobayashi+’20] ◦ 注意機構以外のモジュールも考慮して注意パターンを観察する [Kobayashi+’21;’24] Kobayashi+, Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (EMNLP 2020) Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021) Kobayashi+, Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Maps (ICLR 2024) Jain&Wallace, Attention is not Explanation (NAACL 2019) Serrano&Smith, Is Attention Interpretable? (ACL 2019) Pruthi, Learning to Deceive with Attention-Based Explanations (ACL 2020) Brunner+, On Identifiability in Transformers (ICLR 2020) 注意重みに関する議論と拡張 78 [Jain&Wallace’19; Serrano&Smith’19]

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」観察手法を拡張すると文頭などへの偏りは薄まる • 拡張した手法で注意パターンを観察すると、奇妙な注目の偏りが大幅に薄まる ◦
文頭・文末・区切り記号に注意重みを強く割り振るが、その Value ベクトルは小さい → 「何もしない (no-operation)」という処理をややこしい形で実現 → 「合計が１になるように注意重みを文脈へ割り振る」という softmax の制約が要因 [Kobayashi+’20] 79 Kobayashi+, Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (EMNLP 2020) 注意重み拡張手法 [Kobayashi+’20] BERTでの結果 GPT-2 での結果

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Xiao+, Efficient Streaming Language
Models with Attention Sinks (ICLR 2024) Chen+, SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator (arXiv 2024) 余談1：ゴミ箱機能を考慮したアーキテクチャ工夫 • 参照先を近い文脈のみに絞る sliding window attention にゴミ箱への参照を導入 ◦ 例外的に先頭には注目できるように設計すると絶大な性能向上 [Xiao+’24] ◦ 例外的に区切り記号にも注目できるように設計するとさらに性能向上 [Chen+’24] [Chen+’24] [Xiao+’24] 80 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 言語モデルでは中間表現 (活性化) に外れ値が出現する
◦ Massive activations [Sun+’24] と呼ばれる少数の異常値が特定の表現の特定の次元に出現（Super weights [Yu+’24] と呼ばれる異常値な重みパラメータから作成される） ◦ 量子化において性能劣化に繋がる厄介な存在 [Dettmers+’22] • 外れ値は注意機構のゴミ箱機能と密接に関連している [Sun+’24; Yu+’24] ◦ 外れ値はテキストの先頭や区切りトークンで出現し、そこがゴミ箱になる余談2：ゴミ箱機能と外れ値の関係性 Sun+, Massive Activations in Large Language Models (COLM 2024) Yu+, The Super Weight in Large Language Models (arXiv 2024) [Sun+’24] 81 Dettmers+, GPT3.int8(): 8-bit Matrix Multiplication for Transformers at Scale Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 仮説：ゴミ箱機能のために外れ値を学習 [Bondarenko+’23] 　　　1.
偏った注意重み (Query と Key の内積) を作成するのに表現に外れ値が必要　　　2. 注意機構の直前にある層正規化が外れ値を弱める　　　3. 前層のフィードフォワードネットがかなり大きな外れ値を作成 • 外れ値からゴミ箱機能が実現される内部過程 [Sun+’24] ◦ 実は外れ値はゼロベクトルを作るために使われていそう ◦ ほとんどの内積値は負の値なので、ゼロに近い内積部分がゴミ箱になる余談3：ゴミ箱機能と外れ値の数理 82 [Bondarenko+’23] Bondarenko+, Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing (NeurIPS 2023) Sun+, Massive Activations in Large Language Models (COLM 2024) [Sun+’24] Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Bondarenko+, Quantizable Transformers: Removing
Outliers by Helping Attention Heads Do Nothing (NeurIPS 2023) Miller+, Attention Is Off By One (blog post 2023) Sun+, Massive Activations in Large Language Models (COLM 2024) • 「注意重みの合計が1」という制約を無くすように softmax を改変 • 各注意機構で系列の先頭に学習可能な Key/Value を足すように設計する[Sun+’24] 余談4：ゴミ箱・外れ値の緩和 [Bondarenko+’23] [Miller+’23] 83 [Sun+’24] [Miller+’23; Bondarenko+’23] それぞれ小さめモデルの事前学習で外れ値が緩和 → 量子化しやすいモデル構築に期待 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」パラメータを語彙に紐づける 85 Dar+, Analyzing
Transformers in Embedding Space (ACL 2023) • 重みパラメータを埋め込み行列 (語彙×次元数の行列) に射影して観察 [Dar+’23] ◦ 各パラメータはどんな語彙の表現に反応するのか、どんな語彙の表現に近づける変換をするのか ◦ 一部の注意機構パラメータは性別、地理、法律など特定の情報と関連 ◦ 一部のフィードフォワードネットパラメータは月、人名、スポーツなど特定のトピックに関連

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」中間表現を語彙に紐づける • 各層の中間表現を予測ヘッドに渡して語彙に紐づける (Logit
Lens [nostalgebraist’20]) ◦ 途中層で処理を強制中断して、無理やり出力させるイメージ ◦ モデルを通して予測がどう進んでいったかを追える層 86 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は Layer 1 予測ヘッド東京予測ヘッド、予測ヘッド、予測ヘッド首都予測ヘッド東京予測ヘッド東京予測ヘッド東京既に4層目あたりで正しい予測に辿り着けているのか💡 序盤層ではまだ bigram っぽい予測だな🧐 nostalgebraist, interpreting GPT: the logit lens (blog post 2020)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」中間表現を語彙に紐づける • 各層の中間表現を予測ヘッドに渡して語彙に紐づける (Logit
Lens [nostalgebraist’20]) ◦ モデルを通して予測がどう進んでいったかを追える最終層の予測トークンが  各層では第何候補か   nostalgebraist, interpreting GPT: the logit lens (blog post 2020) 87 各層でのトップ予測トークン   Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」中間表現を語彙に紐づける各層でのトップ予測トークン   Wendler+,
Do Llamas Work in English? On the Latent Language of Multilingual Transformers (ACL 2024) 層 88 • 各層の中間表現を予測ヘッドに渡して語彙に紐づける (Logit Lens [nostalgebraist’20]) ◦ モデルを通して予測がどう進んでいったかを追える ◦ 非英語言語を処理する際、中間層では英語 (第一言語?) で意味処理をしている？ [Wendler+’24] Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」モジュール出力を語彙に紐づけて分析する 89 • 各モジュール
(注意ヘッド、フィードフォワードネット) の出力を予測ヘッドに渡して語彙に紐づける ◦ 各モジュールが予測にどんな影響を与えたのか層 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は Layer 1 予測ヘッド東京予測ヘッド東京この注意ヘッドは正しい予測に寄与していそうだな💡 このフィードフォワードネットは予測を惑わしているかも🧐 2番目の注意ヘッド抽出出力予測ヘッドパリフィードフォワードネット抽出出力

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」フィードフォワードネットを知識記憶装置として分析する • フィードフォワードネット
(2層MLP) のパラメータを語彙に紐づけると、記憶装置として機能しているとみなせる 90

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Geva+, Transformer Feed-Forward Layers
Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析する • 観察：フィードフォワードネット (2層MLP) は注意機構と似ている 91

Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析する • 観察：フィードフォワードネット (2層MLP) は注意機構と似ている 92 注意機構    • Queryベクトルが入力される • Keyベクトルたち (文脈情報たち) との  内積で注意重みを計算   • 各Valueベクトルを、対応する注意重みをかけながら総和

Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析する • 観察：フィードフォワードネット (2層MLP) は注意機構と似ている 93 フィードフォワードネット • 中間表現が入力される • 1つ目の重み行列の列たちとの内積で活性化値を計算    • 2つ目の重み行列の各列（ベクトル）を、  対応する活性化値をかけながら総和

Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析する • 観察：フィードフォワードネット (2層MLP) は注意機構と似ている 94 周囲の単語表現から情報を集める重みパラメータから情報を集める

Are Key-Value Memories (EMNLP 2021) Meng+, Locating and Editing Factual Associations in GPT (NeurIPS 2022) Dai+, Knowledge Neurons in Pretrained Transformers (ACL 2022) フィードフォワードネットを知識記憶装置として分析する • フィードフォワードネット (2層MLP) は記憶装置 ◦ 1つ目の重み行列との内積 (活性化値) は特定の入力パターンに反応 ▪ 特定の n-gram ▪ 特定のトピック ◦ 2つ目の重み行列の各列（ベクトル）は特定単語の予測を導く ▪ 各列を埋め込み行列に射影して、どんな語彙の情報を記憶 & 誘導するか特定 95 関係知識や頻出表現などの情報をパラメータに保存し、入力に応じて必要な情報を表現に付加

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」モデル全体を数学的に分解して影響度を測定 • モデルの出力を「4つの項の足し算」で表して分析 ◦
ある層の表現＝入力埋め込み表現　　　　　　　 + Σ 各注意機構の出力　　　　　　　 + Σ 各フィードフォワードの出力　　　　　　　 + バイアス項たち • 分析例 ◦ 各層においてどの項が支配的か ◦ 各項は単体で、または、他の項との組み合わせでタスクがどれほど解けるか (どの項が重要？) 97 Mickus+, How to Dissect a Muppet: The Structure of Transformer Embedding Spaces (TACL 2022) Ferrando+, Explaining How Transformers Use Context to Build Predictions (ACL 2023) [Mickus+’22]

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」モデル全体を数学的に分解して影響度を測定 • モデルの出力を「4つの項の足し算」で表して分析 ◦
ある層の表現＝入力埋め込み表現　　　　　　　 + Σ 各注意機構の出力　　　　　　　 + Σ 各フィードフォワードの出力　　　　　　　 + バイアス項たち 98 Mickus+, How to Dissect a Muppet: The Structure of Transformer Embedding Spaces (TACL 2022) [Mickus+’22] 各層の表現を形成する上でどの項が支配的か BERT で穴埋めを解く際にフィードフォワードネットが有益っぽい

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」モデル全体を数学的に分解して影響度を測定 • モデルの演算処理全体を各入力トークンに紐づく足し算にまとめる ◦
モデルの予測 (出力ラベルへのロジット) ＝ Σ 各入力トークンの寄与 ◦ Transformer モデル全体を線形演算とみなしてひたすら分配則 ▪ 活性化関数を線形近似、または、ReLU に置換 ▪ 注意重みなどを定数とみなして、計算過程を考えない ◦ 勾配を使った寄与計算手法たち (Integrated Gradients など) よりも忠実な入力寄与を算出可能各入力単語の寄与 @感情分類タスク w/ BERT   99 [Modarressi+’23; Yang+’23] Modarressi+, DecompX: Explaining Transformers Decisions by Propagating Token Decomposition (ACL 2023) Yang+, Local Interpretation of Transformer Based on Linear Decomposition (ACL 2023)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 途中計算や出力ベクトルに介入して、出力 (ロジット,
タスク性能, 表現) の変化を測る → 影響度 (重要度) や特定の振る舞いとの因果関係 ◦ 特定の注意重みを大きく/小さくする介入 ◦ フィードフォワードネットの特定の活性化値を大きく/小さくする介入 ◦ 注意機構/フィードフォワードネットの出力ベクトルに介入 ▪ ゼロベクトルに置き換え (枝刈り; Pruning) ▪ 複数入力での出力平均で置き換え ▪ ランダムな他の入力に対する出力で置き換え ▪ 特定の方向成分を足したり潰したりする介入で特定モジュールの出力への影響度を測る 100 層 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は Layer 1 予測ヘッド東京層 Layer 6 Layer 5 Layer 4 Layer 3 Layer 2 日本の首都は Layer 1 予測ヘッド大阪 🔨

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」事実性を司る注意ヘッド • 一部の注意ヘッドの出力は、入力テキストが「事実」か「誤り (誤解)
」かを判別する情報を多く含んでいる • これらの注意ヘッドの出力ベクトルに対して特定の方向成分 (事実性方向) を足す介入をすると、より事実に基づいた出力を生成するように制御できた 101 Li+, Inference-Time Intervention: Eliciting Truthful Answers from a Language Model (NeurIPS 2023) 元の出力 +介入介入後の出力

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Wang+, Interpretability in the
Wild: a Circuit for Indirect Object Identification in GPT-2 Small (ICLR 2023) Circuit Analysis (回路分析) • モデル内で特定の機能を実現しているサブネットワーク (Circuit; 回路) を特定 ◦ 層を跨いだ複数のモジュール (注意ヘッド、フィードフォワードネット) からなる回路など、より大きなまとまりでの処理を特定していく ◦ 主にここまでに説明した手法たちを組み合わせることで特定・検証される 103 Geva+, Dissecting Recall of Factual Associations in Auto-Regressive Language Models (EMNLP 2023)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Elhage+, A Mathematical Framework
for Transformer Circuits (Transformer Circuits Thread 2021) Induction heads：2つの注意機構によるコピー機能 • 文脈内に一度登場したパターンを2つの注意機構でコピーできる ◦ 例：入力 “A B C D A” の続きを予測する際に、文脈内の “A B” からコピーして “B” を出す • コピー手順　　　1. 各トークン表現に左隣のトークン情報を集めておく　　　2. 1で集めた情報を Query トークンと照合し、前回出現時の右隣トークン情報を集める 104

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 • 複雑なコピーも実現 ◦ 3単語以上のパターンに対するコピー
◦ 類似パターンを参照するソフトなコピー厳密なコピー  ソフトなコピー  4単語のソフトなコピー  4値分類タスクでの  In-Context Learning   • 月　動物: 0 • 月　果物: 1 • 色　動物: 2 • 色　果物: 3 赤いハイライトは  ある注意機構による注意重み  105 Olsson+, In-context Learning and Induction Heads (Transformer Circuits Thread 2022) Induction heads：2つの注意機構によるコピー機能 Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Induction heads：2つの注意機構によるコピー機能 •
このコピー機能が In-Context Learning 能力の鍵とされている • モデルの訓練過程において Induction heads が学習されるタイミングと In-Context Learning 能力が向上するタイミングが経験的に一致 106 Olsson+, In-context Learning and Induction Heads (Transformer Circuits Thread 2022) 損失 ICL スコア Induction heads スコア訓練トークン数訓練トークン数訓練トークン数

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ある入力テンプレートでの間接目的語 (人名) の予測は3ステップの回路 1.
特定の注意ヘッドが複数回登場した人名を特定 2. 特定の注意ヘッドがその人名情報を最後尾の表現に集める 3. 特定の注意ヘッドが一度しか登場していない人名を参照してコピーする間接目的語 (人名) の予測を実現する回路 107 Wang+, Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 Small (ICLR 2023) Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」ある入力テンプレートでの単純な事実知識の予測は3ステップの回路　　 (A)
序盤層のフィードフォワードネットで主語の情報をリッチにする　　 (B) 序盤層の注意機構でエンティティ間の関係についての情報を最後尾の表現に集める　　 (C) 終盤層の注意機構で主語のリッチな情報から、必要な情報をピンポイントに集めてくる事実知識の予測を実現する回路 108 Geva+, Dissecting Recall of Factual Associations in Auto-Regressive Language Models (EMNLP 2023)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」計算過程の分析手法まとめ • 注意パターンの観察
◦ 構文情報・意味情報に紐づく参照 ◦ 近い文脈・遠い文脈・長文脈で必要情報を参照する注意ヘッド ◦ 文頭などをゴミ箱として扱う • 語彙空間への射影 ◦ 各重みパラメータ・中間表現・モジュール出力を語彙に紐づける ◦ フィードフォワードネットを記憶装置とみなす • 出力への影響度 ◦ 数学的に分解して影響度を測定 ◦ 介入によって影響度を測定 • 特徴的なサブネットワークの同定 ◦ コピー機能や事実知識の予測を実現する回路の特定 109

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」解釈（世界との対応づけ），再考 110 🕰
14:00

1800 1900 内部機序の解析と解釈解釈 1875 解析 “Isaac Newton” 1880 111 超多パラメータ・非線形の複雑な言語モデルそのままでは理解困難解析（抽象化・単純化）モデル内部の表現や計算を人間が理解できるレベルまで抽象化・単純化解釈（意味付け）取り出した表現や計算を言語・世界・知識に対応させる “When was Einstein born?”

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Q. なぜ言語・世界の構造がモデルに転写されると
考えられるのか 112

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」内部表現が世界の情報を持っている？なぜ…？ • 例：緯度経度の線形プローブ
• 無論，言語モデルは，世界を歩き回って緯度経度を測ったりはしていない 113

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」仮説1：モデルは世界の共起構造を保存する「プラトン的表現」仮説 • 世界の情報が各モダリティのデータとして
転写されている • 学習データに含まれる世界の共起情報をモデルが学習している • → 各モデルが学習する表現は，世界の構造と同型 114 Hu et al., 2024: Position: The Platonic Representation Hypothesis 世界に含まれる共起情報（例：青いコーンと赤い球の共起）は，画像モダリティにも言語モダリティにも含まれる＝各モダリティのデータにはこの世界の共起構造が写し取られている各モダリティのモデルはデータから世界の共起構造を学習する

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」同型性に基づく対応づけ（解釈）ができる 115 Abdou et
al. 2021, Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color (CoNLL 2021) 言語モデルで色の名前をエンコードした内部表現 ……同士の類似度色空間 (CIELAB; L*a*b*) (= 世界) での色の表現 ……同士の類似度

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」仮説2：言語を発する人の集団が世界に接地「集合的予測符号化」仮説 • 言語モデル
は直接的には世界と接していないが，センサー・アクチュエータ系としてのヒトの集団は世界と接している • このヒトの集団が世界と接しながら言葉を紡いで残したのがコーパス • 映画『マトリックス』の世界のように，巨大な脳としてのコーパス/言語モデルが， “ロープ” で繋がれた人間の集団を介して世界と接している？ 116 Taniguchi+, Generative Emergent Communication: Large Language Model is a Collective World Model (arXiv 2025-01) Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 Q. 言語・世界の構造がモデルに転写されているとどう嬉しいのか
117

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」内部表象が世界の構造を捉えている ⇔ 予測が汎化
世界の構造が言語モデルに転写されていることの実用的側面：内部表象が世界の構造を捉えている ⇔ モデルの予測が汎化する 118 Liu et al., 2022: Towards Understanding Grokking: An Effective Theory of Representation Learning 例：mod 60 の足し算を学習したモデルの表現空間（たとえば時計の秒針や分針の位置）予測が汎化できている ⇔ 表現空間で世界（＝mod 60の足し算）が捉えられている

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」言語学的仮説の検算器になるかもしれない • in silico
の（＝計算機内での；言語モデルで実現している）言語機能・能力　↕ in vivo の（＝生体内での；ヒトの脳で実現している）言語機能・能力という対比ができる • 言語モデルの内部表現・計算過程を通して，言語学的仮説がリアル・パターン（デネット）として浮かび上がるかもしれない 119 Futrell & Mahowald, 2025: How Linguistics Learned to Stop Worrying and Love the Language Models

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」内部機序の解析・解釈 ……という方法の限界
120 🕰 14:10

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」局所性・一対一対応という前提への懐疑 121

1800 1900 内部機序の解析と解釈解釈 1875 解析 “When was Einstein born?” “Isaac Newton” 1880 122 超多パラメータ・非線形の複雑な言語モデルそのままでは理解困難解析（抽象化・単純化）モデル内部の表現や計算を人間が理解できるレベルまで抽象化・単純化解釈（意味付け）取り出した表現や計算を言語・世界・知識に対応させる暗黙的な仮定：概念・機能の局所性暗黙的な仮定：内部表現と対応物の一対一対応

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」暗黙的な強い仮定：機能の局在性・一対一対応言語モデルの内側でこういうことが起きていると仮定している • 何らかの概念や機能に対応する内部機序（内部表現・計算機構）は，
人間にわかる程度の抽象度のパーツに局在化して埋め込まれている ◦ ニューロン，ベクトル，サーキット，…… ◦ あるいは，辞書学習等を通してこの状態まで「ほどく」ことができる • 何らかの概念や機能 ↔ 対応する内部機序（内部表現・計算機構）は，一対一に対応する • ……本当にこの考え方は妥当なのか？ 123

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」暗黙的な強い仮定：機能の局在性・一対一対応言語モデルの内側でこういうことが起きていると仮定している • 何らかの概念や機能に対応する内部機序（内部表現・計算機構）は，
人間にわかる程度の抽象度のパーツに局在化して埋め込まれている ◦ ニューロン，ベクトル，サーキット，…… ◦ あるいは，辞書学習等を通してこの状態まで「ほどく」ことができる • 何らかの概念や機能 ↔ 対応する内部機序（内部表現・計算機構）は，一対一に対応する • ……本当にこの考え方は妥当なのか？ 124

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 SAE (Sparse Autoencoders) の気持ち
• とくに概念の数 > モデル次元の場合，表現の重ね合わせが起きる ◦ superposition • 辞書学習を通して，何らかの概念や機能に対応するパーツを局在化できる ◦ polysemanticity → monosemanticity 125 Bereska & Gavves, 2024: Mechanistic Interpretability for AI Safety -- A Review Chanin et al., 2024: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 SAE (Sparse Autoencoders) の気持ち…？
• 実際の SAE は，解釈し難い概念の集合を取り出してしまう ◦ feature absorption ◦ 「“laser” と “lions” 以外の “L” で始まるtoken」に発火する SAE 特徴…? 🤔 • ヒトの持つ概念 ↔ 言語モデルが持つ概念の対応が取れるという強い仮定 🤔 126 Bereska & Gavves, 2024: Mechanistic Interpretability for AI Safety -- A Review Chanin et al., 2024: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」実際のデータの埋め込まれ方は複雑 Marjieh et al.,
2025: What is a Number, That a Large Language Model May Know It? 127 数値とその連続的な描像が，直接モデルに埋め込まれているとしたら…… 文字列としての編集距離が直接モデルに埋め込まれているとしたら…… 実際のモデルにはその両方＋α が埋め込まれている Skip

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」同じ計算過程を表す回路が複数存在し得る Méloux et al.,
2025: Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable? 128 多層ニューラルネットで XORを計算させよう AND/ORレベルの可能なアルゴリズムが複数存在これを実現するサーキットは数十種類存在

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」 “実際の” 計算メカニズムすら複数存在し得る Ortu et
al., 2024: Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals 129 iPhoneはGoogleが開発しました iPhoneはどの会社が開発しましたか？可能な回答機序1：コーパスの知識を思い出す可能な回答機序2：in-contextで教えてもらった情報を返す

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」「表現と計算」という視点・方法論への懐疑 130

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」の “1879” 1879 “Albert
Einstein” 1800 1900 内部機序の解析と解釈解釈 1875 解析 “When was Einstein born?” “Isaac Newton” 1880 131 超多パラメータ・非線形の複雑な言語モデルそのままでは理解困難解析（抽象化・単純化）モデル内部の表現や計算を人間が理解できるレベルまで抽象化・単純化解釈（意味付け）取り出した内部表現や計算過程を言語・世界・知識に対応させる「表現と計算」という計算機科学・計算論的＊＊学の標準的な見方を通して言語モデルを捉えようとしてきた

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」暗黙的な強い仮定：言語モデル as 表象計算機 •
言語モデルの内側でこういうことが起きていると仮定している ◦ 内部 “表象” ：言語・世界に関する何かに対応する表現 ◦ 計算過程：その何かが計算によって処理される • ……本当にこの考え方は妥当なのか？ 132

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」表象も持たず計算もしないシステムワットの遠心調速機 • 蒸気機関の出力を一定に保つ機構
◦ 速い → 重りが外側に → 出力を抑制 ◦ 遅い → 重りが内側に → 出力を促進 • これは表象計算機では全くない ◦ 速度に対応する表象・パーツ：ない ◦ 出力制御のための計算：していない • これをif/thenの計算機構と解釈…？ • ☹ 対象を「表現と計算」という見方で　解釈しようというという指針自体が　芯を外している可能性 • 「ニューラルネットはこうした動的システムと記号処理系の間くらい？」 133 Van Gelder, 1995: What Might Cognition Be, If Not Computation?

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」それを作った仕組みが見えなくなるほど複雑な系 • 言語モデル ◦
作った仕組み：言語モデルを学習するためのコード（数百行；相対的に簡単） ◦ 作られた系：学習された言語モデル（100億〜パラメータ；相対的に複雑） • ライフゲーム（Conway's Game of Life）と同様 • 言語モデル（＝学習の結果；非常に複雑な系）だけを見ていても，表現・アルゴリズムレベルの理解は得られないのでは？ 134 簡単なルール複雑な挙動 Lilicrap & Kording, 2019: What does it mean to understand a neural network?

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」理解のための方法とシステムのアンマッチ • Q. 計算神経科学の方法論でドンキーコングのマイコンを理解できるか？
• 発見：「ここのニューロンを抑制すると　　　　ドンキーコングが起動できなくなる　　　　これがドンキーコングニューロンだ」 • 実際：任意のゲームで利用される全加算器 • ドンキーコングのプログラムに迫れていない • 表現と計算の本当の構成概念を見つけ，かつ，それだけを切り出す形で分析することは可能か？ 135 ≈ 我々が持っているモデルの解釈性の方法論 ≈ 人工ニューラルネットで作られた言語モデル Jonas+, Could a neuroscientist understand a microprocessor? (PLoS computational biology 2017)

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」解釈は誰のため？ 136

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」解釈性と説明可能性 • 解釈性システムに対する何らかの洞察を与える何か
• 説明可能性具体的なステークホルダーに対して彼ら彼女らがわかる形で洞察を提供 137 Calderon & Reichart, 2024: On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」解釈性と説明可能性 138 ステークホルダー：“工学的” な関心を持つ人
目的：評価，デバッグ，汎化，知識編集，… Calderon & Reichart, 2024: On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs ステークホルダー：“理学的” な関心を持つ人目的：理論の整備，新発見，仮説生成，… こちらにも膨大な領域ステークホルダー：ビジネスに関心を持つ人，社会全体目的：意思決定，信頼性，安全性，公平性，……

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」それでも内部機序の解析と解釈で何かに迫れているように見える
139

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」例1：ゴールデンゲートブリッジ特徴（再掲） • Claudeの表現空間内に，ゴールデンゲートブリッジの
話題や画像にだけ選択的に反応する特徴量がある • この特徴を増幅させると，言語モデルが「我こそはゴールデンゲートブリッジである」などと言い始める https://transformer-circuits.pub/2024/scaling-monosemanticity 140 Q. あなたはどういう身体を持っているの？ A. 持っていません．　　私は人工知能です． A. 我こそがゴールデンゲートブリッジなり．

沿って動かすと，出力されるこの有名人の生まれ年が変わる．例2：時間を司る「軸」の存在（再掲） Heinzerling & Inui 2024: Monotonic Representation of Numeric Properties in Language Models 141 Q. カールポパーの生まれ年は？ A. 1902 誕生年軸を手前に動かすと… 誕生年軸を奥側に動かすと… A. 1975 A. 1881

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」まとめ 142 🕰 14:20

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」言語モデルの内部機序：解析と解釈 — まとめ 143
• 言語モデルの内部機序に基づく理解 — Why & How ◦ モデルの入出力は「理由」にならない → モデルの内部機序 (内部表現・計算過程) ◦ 複雑なモデル全体を理解できない → 解析 (抽象化・単純化) ◦ 表現・計算を世界に紐付けて理解したい → 解釈 (言語・世界・知識との接続) • 内部表現の解析・解釈 ◦ スカラーの分布・ベクトル群の分布・ベクトル群の幾何的構造 ◦ プローブ・辞書学習・介入 • 計算過程の解析・解釈 ◦ 注意の観察・語彙空間への射影・出力への影響度・サブネットの同定 • 解釈（言語・世界・知識との対応づけ），再考 ◦ 世界の構造がモデルに写し取られていると信じられる理由・嬉しさ • 内部機序の解析・解釈という方法の限界 ◦ 局所性/一対一対応？・表現と計算？・解釈は誰のため？

言語処理学会第31回年次大会（NLP2025）チュートリアル資料 — ハインツァリング, 横井, 小林「言語モデルの内部機序：解析と解釈」謝辞 • ⾔語処理学会第31回年次⼤会 (NLP2025)
の委員の皆さまに感謝します．とくに，複数のスピーカーという例外的な形式へのご対応に感謝します． • 日常的な研究議論にお付き合いくださっている多くの友人・同僚・研究者仲間に，とくに，我々3名の出会いの場でもあった東北NLPグループの皆様に感謝します． 144

言語モデルの内部機序：解析と解釈

言語モデルの内部機序：解析と解釈

Video

Resources

言語処理学会第31回年次大会 (NLP 2025)

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript