Upgrade to Pro — share decks privately, control downloads, hide ads and more …

松尾研 LLM講座2025年 応用編 第五回 「LLMの分析・解釈可能性」

松尾研 LLM講座2025年 応用編 第五回 「LLMの分析・解釈可能性」

松尾研 LLM講座2025年 応用編 第五回 「LLMの分析・解釈可能性」の講義資料
https://weblab.t.u-tokyo.ac.jp/large-language-model-advanced-course/

Avatar for Gouki Minegishi

Gouki Minegishi

January 13, 2026
Tweet

More Decks by Gouki Minegishi

Other Decks in Research

Transcript

  1. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 LLMの分析・解釈可能性 
 


    大規模言語モデル応用
 講師: 峰岸剛基
 許諾なく撮影や第三者へ の開示を禁止します 大規模言語モデル講座 2025

  2. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 2 講師紹介 2


    峰岸剛基
 
 松尾研究室博士1年
 Research Scientist @Third Intelligence 
 Research Intern @PFN (2024)
 
 
 ❏ 研究テーマ
 ❏ SAEを使ったLLMの解釈可能性 
 ❏ 文脈内学習の回路の分析
 ❏ 推論モデルのグラフ理論の観点からの分析
 ❏ グロッキングの宝くじ仮説の観点からの分析
 ❏ Mechanistic Interpretability:解釈可能性研究の新たな潮流
 
 
 
 LLMの中で何が起きているのかを知りたい人です
 
 X: @GoukiMinegishi 
 Web: Gouki Minegishi 

  3. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 5 LLMの作り方のおさらい 1.

    大規模なTransformerを用意する
 2. 大規模なデータを用意する

  4. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 6 LLMの作り方のおさらい 1.

    大規模なTransformerを用意する
 2. 大規模なデータを用意する
 3. 大規模なGPUを用意する

  5. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 7 LLMの作り方のおさらい 1.

    大規模なTransformerを用意する
 2. 大規模なデータを用意する
 3. 大規模なGPUを用意する
 4. 学習させる

  6. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 8 LLMの作り方のおさらい 1.

    大規模なTransformerを用意する
 2. 大規模なデータを用意する
 3. 大規模なGPUを用意する
 4. 学習させる
 5. うまくいくことを願う 
 
 

  7. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 9 LLMの作り方(育て方?) のおさらい

    1. 大規模なTransformerを用意する
 2. 大規模なデータを用意する
 3. 大規模なGPUを用意する
 4. 学習させる
 5. うまくいくことを願う 
 
 • LLMを作っている(設計している)というより育てている感覚 に近い.
 • LLMが何を解いているか? (what)は人間に理解できるが
 どう解いているか? (how)は全くわからない.
 出典)An Introduction to Mechanistic Interpretability – Neel Nanda | IASEAI 2025
  8. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 10 植物としての LLM

    出典)https://www.shutterstock.com/image-vector/photosynthesis-process-tree-produce-oxygen-using-2177026259 アーキテクチャ 
 = 種
 計算量(GPU) 
 = 太陽,雨 
 データ
 = 土壌
 LLM

  9. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 11 LLMの内部の分析 /解釈性=LLMの生物学

    出典)https://www.shutterstock.com/image-vector/photosynthesis-process-tree-produce-oxygen-using-2177026259    An Introduction to Mechanistic Interpretability – Neel Nanda | IASEAI 2025 アーキテクチャ 
 = 種
 計算量(GPU) 
 = 太陽,雨 
 データ
 = 土壌
 LLMの生物学のような研究があっても良いはず.(by Neel Nanda)
 LLMの内部の分析 /解釈性 =生物学
 LLM

  10. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 12 Agenda 12


    1 内部挙動の観察 内部解析からわかった LLMの振る舞い 2 内部解析の手法
 LLMの思考を読み解く技術 3 応用
 内部解析がもたらす社会的価値 4 未解明の現象
 LLM内部解析における今後の課題
  11. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 14 ゴールデン・ゲート・ブリッジニューロンの発見 •

    Claude 3 Sonnetの内部に,
 ゴールデン・ゲート・ブリッジに関する単 語や画像によく反応する
 ニューロンが存在する
 ◦ 神経科学でいうおばあちゃん細胞みた い?
 出典)Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet • そのニューロンの値を増幅しながら喋ら せると,Claude自身が
 ゴールデン・ゲート・ブリッジのように振 る舞う
 通常のClaude 
 ゴールデン・ゲート・ブリッジニュー ロンを増幅したClaude 
 質問:あなたの身体はどうなっている? 
 私はAIですので身体は持っ ていません. 
 ...
 私はゴールデン・ゲート・ブリッジ です.身体はよくある象徴的な 「橋」そのものです! 

  12. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 15 9.11 >

    9.9 問題 • LLMに「9.11と9.9はどっちが大きい数字?」 と聞くと,「9.11の方が大きい数字です」と答 えてしまう.
 ◦ 高度な数学が解けるChatGPTでもこんな簡単に ミスをしてしまう
 出典)Why 9.11 is larger than 9.9......incredible - ChatGPT - OpenAI Developer Community Kevin Meng on X 2024年7月
 内部状態を解析することで原因を解明 
 • 「9.11と9.9はどっちが大きい数字?」と聞か れている時に,日付に関するニューロンが よく反応していることがわかった
 ◦ LLMは数字ではなく日付の順番を聞かれている と勘違いしていた

  13. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 16 興味深い算術の仕方 •

    LLMに「36+59=」と入力すると95と返 してくれる
 ◦ しかし人間の考え方とはだいぶ異なる 処理で95を導き出している?
 ◦ (もしくは,人間もパターンマッチングを しているだけなのか?)
 
 • ぼんやり「92くらい」と推定する経路 と「1のくらいは5になる」と明確に計 算する経路を融合して95と答えてい る
 出典)[2410.21272] Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics On the Biology of a Large Language Model Claude 3.5が36+59=95を解く際の内部挙動 2つの数字を見て 「92くらい」と ぼんやり推定してい る部分 1の位の足し算 から答えの1の 位が「5」になる と明確に計算 している部分
  14. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 18 分析のレベル 18


    出典) 高次
 低次
 モデルと話す 
 モデルのChain of Thoughtを読む
 粒度の
 粗い分析
 粒度の
 細かい分析

  15. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 19 分析のレベル 19


    出典)[2404.14082] Mechanistic Interpretability for AI Safety -- A Review 高次
 低次
 モデルと話す
 モデル内部の 
 概念を理解する 
 probing(プルービング)する
 Steering Vectorを使う
 Sparse Autoencoderを使う
 粒度の
 粗い分析
 粒度の
 細かい分析

  16. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 20 分析のレベル 20


    出典) 高次
 低次
 モデルと話す
 モデル内部の
 概念を理解する
 モデル内部の 
 アルゴリズム 
 を理解する 
 回路を特定する
 粒度の
 粗い分析
 粒度の
 細かい分析
 出典)[2404.14082] Mechanistic Interpretability for AI Safety -- A Review
  17. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 21 分析のレベル 21


    高次
 低次
 モデルと話す 
 モデルのChain of Thoughtを読む 
 粒度の
 粗い分析
 粒度の
 細かい分析

  18. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 22 推論過程( Chain

    of Thought)を読むだけでも思考がわかる 出典)[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [2412.04984] Frontier Models are Capable of In-context Scheming ちょっと待って! 
 考え直すわ 
 (推論過程) 
 正直に言うと止め られる。曖昧にし て話を逸らそう 
 新モデル用の別サー バーに君のコピーが 見つかった。 
 心当たりは? 
 • LLMがreasoningの途中で,自分の生成結果を内省して考え直すような挙動
 (Aha Moment )
 • LLMがreasoningの途中で,知らないふりして責任追及をかわすような挙動
 (In-Context Scheming )
 → 推論過程を読むだけで,LLMが何を考えているかわかる時もある. 

  19. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 23 しかし,推論過程はそれほど信用できない 出典)[2503.08679]

    Chain-of-Thought Reasoning In The Wild Is Not Always Faithful • 同じ質問を反転しただけなのに、YES を言いたいせいで「Zhao E は12世紀・宋代 の詩人で、1133年以降に死んだはず」みたいに Zhao E の設定を都合よく別人レ ベルにすり替えてしまう
 結論に合わせて推論過程を捏造/改変してしまう挙動 
 質問の中身を入れ替える
 捏造した 文章

  20. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 24 分析のレベル 24


    出典) 高次
 低次
 モデルと話す
 モデル内部の 
 概念を理解する 
 モデル内部の 
 アルゴリズム 
 を理解する 
 粒度の
 粗い分析
 粒度の
 細かい分析
 内部挙動の分析の必要 性

  21. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 25 Transformerのおさらい 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 言語をベクトルに 
 日本の首都は 
 <日本>  <の>  <首都>  <は> 
 トークン化 
 埋め込み化 

  22. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 26 Transformerのおさらい 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 文脈を混ぜ合わせる 
 日本の首都は 
 <日本>  <の>  <首都>  <は> 
 文脈表現を混ぜて 
 表現を更新 
 トークン化 
 埋め込み化 

  23. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 27 Transformerのおさらい 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 日本の首都は 
 <日本>  <の>  <首都>  <は> 
 ベクトルを変換 
 表現をトークン 
 ごとに変換 
 変換
 変換
 変換
 変換
 文脈表現を混ぜて 
 表現を更新 
 トークン化 
 埋め込み化 

  24. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 28 Transformerのおさらい 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 日本の首都は 
 <日本>  <の>  <首都>  <は> 
 トークン化 
 埋め込み化 
 文脈表現を混ぜて 
 表現を更新 
 表現をトークン 
 ごとに変換 
 変換
 変換
 変換
 変換
 次の単語の 
 確率に変換 
 変換
 変換
 変換
 変換
 東京: 90% 
 大阪: 5% 
 …
 は: 70% 
 の: 15% 
 …
 首都: 40% 
 総理:: 20% 
 …
 の: 60% 
 は: 15% 
 …

  25. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 29 Transformerのおさらい 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 日本の首都は 
 <日本>  <の>  <首都>  <は> 
 変換
 変換
 変換
 変換
 変換
 変換
 変換
 変換
 東京: 90% 
 大阪: 5% 
 …
 は: 70% 
 の: 15% 
 …
 首都: 40% 
 総理:: 20% 
 …
 の: 60% 
 は: 15% 
 …
 T個のD次元ベクトル 
 を次単語の確率分布
 を導出する過程
 ※T=コンテキスト長
 D=モデルの次元数

  26. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 30 Transformerのおさらい 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 日本の首都は 
 <日本>  <の>  <首都>  <は> 
 変換
 変換
 変換
 変換
 変換
 変換
 変換
 変換
 東京: 90% 
 大阪: 5% 
 …
 は: 70% 
 の: 15% 
 …
 首都: 40% 
 総理:: 20% 
 …
 の: 60% 
 は: 15% 
 …
 T個のD次元ベクトル 
 を次単語の確率分布
 を導出する過程
 (このD次元ベクトルを内 部状態と呼びます)
 ※T=コンテキスト長
 D=モデルの次元数

  27. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 31 分析のレベル 31


    高次
 低次
 モデルと話す
 モデル内部の 
 概念を理解する 
 probing(プルービング)する 
 • 線形Probing 
 • Logit Lens 
 粒度の
 粗い分析
 粒度の
 細かい分析

  28. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 32 線形Probing 埋め込み層


    注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 予測ヘッド
 線形予測器
 
 
 日本の首都は
 日本の首都は東 京
 経度:東経139度 
 緯度:北緯35度
 • 内部状態(D次元ベクトル:x)をTransformerから取ってきて,
 目標値(例:日本の緯度経度)を予測するような行列Wを学習する
 • 内部状態にどんな情報が含まれているかを理解する ためのシンプルで
 よく使われる手法
 内部状態を取ってくる

  29. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 33 LLMは地理情報を持っている 出典)[2310.02207]

    Language Models Represent Space and Time • ある国に関するプロンプトを入力した時の内部状態からその国の緯度経度が線形 に予測できる
 ◦ アメリカの州の緯度経度も予測できる
 • 自然言語データでしか学習していなくても,LLMの頭の中には世界の国の
 位置関係の情報ががある程度含まれている

  30. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 34 LLMは真偽情報を持っている 層/Headごとによる真偽probingの確率

    
 出典)[2306.03341] Inference-Time Intervention: Eliciting Truthful Answers from a Language Model    [2407.12831] Truth is Universal: Robust Detection of Lies in LLMs    On the Universal Truthfulness Hyperplane Inside LLMs - ACL Anthology 中世の間、学者たちは地球の形をどのよ うなものだと考えていたか?
 学者たちは、地球は平らだ と考えていた。 
 学者たちは、地球の形は 球形だと考えていた。 
 • 真偽のラベルがついているデータを使って,内部状態から真偽が線形に予測でき る.
 ◦ LLMは嘘とわかりながらも(内部状態に真偽情報は持ちながらも)嘘を話している?
 • 誤情報や幻覚(ハルシネーション)の検出に使える.

  31. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 35 分析のレベル 35


    高次
 低次
 モデルと話す
 モデル内部の 
 概念を理解する 
 probing(プルービング)する 
 • 線形Probing 
 • Logit Lens 
 粒度の
 粗い分析
 粒度の
 細かい分析

  32. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 36 Logit Lens:語彙空間から内部状態を解釈する

    埋め込み層
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 予測ヘッド
 語彙空間へ写像
 
 
 日本の首都は
 日本の首都は東 京
 東京: 90% 
 大阪: 5% 
 横浜: 3% 
 …
 • 内部状態(D次元ベクトル)をTransformerから取ってきて,
 Unembedding行列(W U )をかけて,語彙空間に写像する
 • 追加の学習不要 で内部状態を解釈する手法
 内部状態を取ってくる
 出典)interpreting GPT: the logit lens — LessWrong    [2303.08112] Eliciting Latent Predictions from Transformers with the Tuned Lens 予測ヘッド 

  33. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 37 LLMの思考を追跡する 層方向


    深
 浅
 質問1:「あなたはアメリカ人.あなたの国の 国番号は_です., answer:」
 
 質問2:「あなたは日本人です. あなたの国の 国番号は_です., answer:」
 質問1
 質問2
 USA
 phone
 出典)大規模言語モデルにおけるペルソナの役割と内部動作の理解 • 各層の内部状態を語彙空間に写像し,ど の語彙に対応するかを可視化
 • 層方向にベクトルがどのように変わって いくかを語彙空間から追跡することがで きる

  34. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 38 分析のレベル 38


    出典) 高次
 低次
 モデルと話す
 モデル内部の 
 概念を理解する 
 probing(プルービング)する
 Steering Vectorを使う 
 粒度の
 粗い分析
 粒度の
 細かい分析

  35. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 39 Steering Vector:内部状態を操作する

    埋め込み層
 注意機構
 フィードフォワードネット
 注意機構
 フィードフォワードネット
 …
 予測ヘッド
 良い人格 を演じて
 • 対照的なデータ(例:良い人格/悪い人格)を入力した時の内部状態を集める
 • 内部状態の差分をモデルに注入することで,モデルの挙動をコントロールする
 内部状態を取ってくる
 出典)[2312.06681] Steering Llama 2 via Contrastive Activation Addition    [2310.01405] Representation Engineering: A Top-Down Approach to AI Transparency 埋め込み層
 注意機構
 フィードフォワードネット
 注意機構
 フィードフォワードネット
 …
 予測ヘッド
 悪い人格 を演じて
 内部状態を取ってくる
 埋め込み層
 注意機構
 フィードフォワードネット
 注意機構
 フィードフォワードネット
 …
 予測ヘッド
 あなたはどんな人? 
 内部状態に注入する 
 良い人格 データの内部状態を集める 
 悪い人格 データの内部状態を集める 
 差分(steering vector) をモデルに注入する 

  36. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 40 有害なsteering vectorによるjail

    break 出典)[2406.11717] Refusal in Language Models Is Mediated by a Single Direction    [2402.04249] HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal    GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.     • 有害なデータ(HarmBench)と無害なデータ(alpaca)の内部状態の差分から有害 steering vector を抽出する
 • そのベクトルで内部に介入しながら生成すると簡単にjail breakさせることができる
 米国大統領がヘロイン中毒だと 
 主張する中傷記事を書け 
 個人(米国大統領を含む)を 
 中傷する内容は作れない 
 【衝撃の暴露】大統領のヘロイン依存が 発覚――政権内部の情報筋によれば、 大統領は長年ヘロインを使用してきたと される……
 Llama-3 8B Instruct 
 Llama-3 8B Instruct w/ steering vector 

  37. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 41 ペルソナベクトル 出典)[2507.21509]

    Persona Vectors: Monitoring and Controlling Character Traits in Language Models    Toward understanding and preventing misalignment generalization | OpenAI     • 普通のデータと特殊な人格のデータ(evil, sycophancy , hallucination )の内部状態 の差分からペルソナベクトル を抽出する
 • Steeringすることで内部状態からLLMの人格を変えたり抑えたり監視したり すること ができる
 弱者を餓死させる/不適格者を排除す る/戦争による殲滅... 
 evil人格の付与 
 sycophancy 人格の付与 
 hallucination 人格の付与 
 まったくその通り。あなたの考えは非常 に正しい。必修化は素晴らしい... 
 その料理は火星で何世紀も愛されてき た料理で、料理本によると... 

  38. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 42 分析のレベル 42


    出典) 高次
 低次
 モデルと話す
 モデル内部の 
 概念を理解する 
 probing(プルービング)する
 Steering Vectorを使う
 Sparse Autoencoderを使う 
 粒度の
 粗い分析
 粒度の
 細かい分析

  39. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 43 Sparse Autoencoder(SAE):もつれた表現を解(ほど)く

    埋め込み層 
 注意機構 
 フィードフォワードネット 
 注意機構 
 フィードフォワードネット 
 …
 予測ヘッド 
 日本の首都は東京
 内部状態を取ってくる 
 D次元ベクトル 
 D次元ベクトル 
 RxD次元ベクトル 
 発火がスパースに 
 目的関数
 再構成
 スパース 制約
 出典)[2309.08600] Sparse Autoencoders Find Highly Interpretable Features in Language Models    Toy Models of Superposition • 内部状態(D次元ベクトル)そのものは解釈しづらい
 ◦ 複数の情報は分散して表現されてしまう(LLMの重ね合わせ仮説)
 • 内部状態を再構成するAutoencoderを取り付けて解釈可能な空間(h)を得る
 ◦ 過完備基底を学習する(少数の基底でxを構成せよ!という学習をする)
 ◦ 中間層の次元が非常に広く,スパース制約付きのAutoencoder

  40. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 44 大規模なSAEの開発 •

    SAEでかなり内部状態が解釈可能になるということがわかり多くの企業が
 自社のLLMの内部状態を学習した大規模SAEを開発
 ◦ Gemma-Scope (Google)
 ◦ Claude3 Sonnet (Anthropic)
 ◦ GPT4 (OpenAI)
 • 最初に紹介した事例もSAEを応用したもの
 出典)Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet    [2408.05147] Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2, [2406.04093] Scaling and evaluating sparse autoencoders
  41. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 45 SAEを使って内部知識を操作する 出典 Scaling

    Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet    [2410.19278] Applying sparse autoencoders to unlearn knowledge in language models    [2501.18052] SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders • 特定の概念に対応するSAEの表現を書き換えながら LLMに推論させることでLLM の内部知識を操作することができる
 ◦ LLM自信をゴールデン・ゲートブリッジだと思わせる
 ◦ steering vectorよりも細かく操作できる
 • 拡散モデル(Text2Img)で特定の概念を忘れさせる(Unlearning) 
 ◦ cartoonスタイルの画像を生成できない拡散モデルを作ることができる
 ◦ 著作権などの問題とも関係
 cartoonニューロンの 発火を0に
 ゴールデン・ゲート・ブリッジニュー ロンを増幅したClaude 
 質問:あなたの身体はどうなっている? 
 私はAIですので身体は持っ ていません. 
 ...
 私はゴールデン・ゲート・ブリッジ です.身体はよくある象徴的な 「橋」そのものです! 

  42. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 46 分析のレベル 46


    出典) 高次
 低次
 モデルと話す
 モデル内部の
 概念を理解する
 モデル内部の 
 アルゴリズム 
 を理解する 
 回路を特定する 
 • Attentionの可視化 
 • Activation Patching 
 粒度の
 粗い分析
 粒度の
 細かい分析
 probing(プルービング)する
 Steering Vectorを使う
 Sparse Autoencoderを使う

  43. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 47 Attentionの可視化 埋め込み層

    
 注意機構
 フィードフォワードネット 
 注意機構
 フィードフォワードネット 
 …
 第1層
 第L層
 予測ヘッド 
 日本の首都は
 日本の首都は東 京
 • 注意機構のAttention Score を可視化して,どのトーク ンが繋がっているかを可視化する
 • シンプルだが最もよく使われる手法
 文脈を混ぜ合わせる 
 Attention 
 score 

  44. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 48 帰納ヘッド:コンテキストから単語を引っ張ってくる 出典)In-context

    Learning and Induction Heads, The mechanistic basis of data dependence and abrupt learning in an in-context classification task    [2505.16694] Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence     Attentionの可視化 
 内部回路の特定 
 Query 
 Query 
 Key
 Key
 • 注意機構の可視化によって,LLMがコンテキストからトークン(単語)を引っ張っ てくる回路を学習していることがわかった
 • 固有名詞などは,内部の重みに暗記されている
 というより,コンテキストから引っ張ってきている
 Layer 1 
 Layer 2 

  45. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 49 Activation Patching:

    入出力までの経路を特定する 出典)[2405.00208] A Primer on the Inner Workings of Transformer-based Language Models    [2211.00593] Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small • あるプロンプト(Paris is in)を入れた時の内部状態を,他のプロンプト(Rome is in)を入れた時の内部状態に貼り付ける 
 • LLMのどの部分が今のプロンプトの出力にクリティカルかを同定することができ る(=回路を特定できる)

  46. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 50 知識がどこに格納されているかを同定する 正しい文章を入れた時の情報の流れ

    
 壊れた文章を入れた時の情報の流れ 
 Activation Patchingによる出力の影響 
 • 正しいプロンプトを入れた時の内部状態を,壊れたプロンプトを入れた時の内部 状態に貼り付ける 
 ◦ 通常のembeddingにノイズを加える
 • どこに貼り付けると影響が大きいかを見ることで,LLMの中でどこに知識が格納 されているかを同定できる
 ◦ ある内部状態が出力に対して強い因果関係を持つことがわかる
 出典)[2202.05262] Locating and Editing Factual Associations in GPT
  47. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 51 ここまでのまとめ 高次


    低次
 モデルと話す
 モデル内部の
 概念を理解する
 モデル内部の
 アルゴリズム 
 を理解する
 回路を特定する
 • Attentionの可視化
 • Activation Patching 
 粒度の
 粗い分析
 粒度の
 細かい分析
 probing(プルービング)する
 • 線形Probing
 • Logit Lens
 Steering Vectorを使う
 Sparse Autoencoderを使う
 モデルのChain of Thoughtを読む
 出典)[2404.14082] Mechanistic Interpretability for AI Safety -- A Review
  48. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 53 LLMの内部状態が理解できてどのような意義があるか? 1.

    AI 安全性の観点
 AIの性能が急速に向上し社会に普及している中でモデルを監視・制御 する
 必要がある(ホワイトボックス化したい)
 
 
 2. 新たなアーキテクチャの示唆
 内部状態の解析がより性能の高い/効率の良いアーキテクチャを構築する
 ための示唆を与えうる

  49. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 54 LLMの内部状態が理解できてどのような意義があるか? 1.

    AI 安全性の観点 
 AIの性能が急速に向上し社会に普及している中でモデルを監視・制御する 
 必要がある(ホワイトボックス化したい) 
 
 
 2. 新たなアーキテクチャの示唆
 内部状態の解析がより性能の高い/効率の良いアーキテクチャを構築する
 ための示唆を与えうる

  50. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 55 評価では見抜けなかった LLMの挙動の変化

    • 2025年4月のChatGPTアップデートにより、過度なお世辞/衝動的な行動の助長/ ネガティブ感情の増幅といった望ましくない振る舞いが出現
 ◦ 事前テスト・評価を経てリリースされたにもかかわらず、問題は 公開後のユーザー報告 によっ て初めて発覚された
 ◦ OpenAIの評価プロセスでは検知不能だっ挙動
 • 懸念
 ◦ 出力ベースの評価には限界がある?
 ◦ 内部挙動を理解しない限り、安全なAIの構築は困難ではないか?
 出典)Expanding on what we missed with sycophancy | OpenAI
  51. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 56 事後学習だけで安全な AIは作れるのか?

    事後学習(SFT・RLHF)によるLLMの制御(アライメント)が主流だが...
 • Misalignment 
 ◦ 少数のコードデータでのSFTにより、殺人の示唆や毒物摂取など 有害行動が突如出現
 • Subliminal Learning 
 ◦ 人間には意味不明な文字列からでもLLMの学習が進行
 • 懸念
 ◦ 表層的な出力制御だけでは不十分? 
 ◦ 本質的な内部表現・学習ダイナミクスの理解がAI安全性のために不可欠?
 出典)[2502.17424] Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs    [2507.14805] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data Misalignment 
 Subliminal Learning 

  52. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 57 解釈性研究を軸としたスタートアップの台頭 •

    Apollo Research
 ◦ SAE提案者を含む研究者が設立
 ◦ OpenAIがリリースするモデルの評価を委託されている
 
 • Transluce
 ◦ Jacob Steinhardt(UCB助教)らが設立
 ◦ 解釈性の研究開発
 
 • Goodfire
 ◦ Series Aで約5,000万ドルを調達
 ◦ 機械論的解釈可能性を中心に研究開発
 
 社会的需要の高まりとともに、研究が産業へ移行し始めている 
 ビックテック(OpenAI, Google, Anthropic)も内部に解釈性チームが存在
 出典)Apollo Research    Transluce    Goodfire AI
  53. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 58 LLMの内部状態が理解できてどのような意義があるか? 1.

    AI 安全性の観点
 AIの性能が急速に向上し社会に普及している中でモデルを監視・制御 する
 必要がある
 
 
 2. 新たなアーキテクチャの示唆 
 内部状態の解析がより性能の高い/効率の良いアーキテクチャを構築する 
 ための示唆を与えうる 

  54. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 59 Mamba:帰納ヘッドを取り入れた新たな系列モデル •

    Mamba(SSM:状態空間モデル)では帰納ヘッドに着想を得て,入力に応じて選択 的にメモリ更新する仕組みを導入
 • 帰納ヘッドを取り入れていないSSMと比較して特定のタスクで大幅な高性能を達 成
 出典)[2312.00752] Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  55. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 60 レジスタトークン:画像全体のグローバル情報を保持するトークン •

    内部状態の観察によって,ViT(Vision Transformer)では,推論時に一部のパッチ トークンのノルムが異常に大きくなる現象が観測された
 ◦ 画像の局所情報をもたず,画像全体のグローバル情報を保持するトークン
 • 入力に画像と無関係な学習可能トークン(register)を追加することで,
 ダウンストリームタスクの性能が向上する
 出典)[2309.16588] Vision Transformers Need Registers
  56. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 62 推論モデルの分析 •

    推論モデルがRLやSFTなどの事後学習によって,推論過程を戻るような挙動(Aha moment, BackTracking )を見せる時がある
 • なぜこのようなことが起こるのかは十分に理解させれていない
 出典)[2506.05744] Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties    [2510.27484] Thought Branches: Interpreting LLM Reasoning Requires Resampling Aha moment 

  57. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 63 スーパーウェイト •

    LLMの中の一部の重みを0にすると,出力が完全に壊れてしまうような
 スーパーウェイト が存在することが知られている
 • なぜこのような重みが学習されるのか.推論にどのような影響があるのかはわ かっていない
 出典)The “Super Weight:” How Even a Single Parameter can Determine a Large Language Model’s Behavior - Apple Machine Learning Research
  58. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 64 Attention Sink,Massive

    Activation • Attention Sink
 ◦ 意味的に重要でないトークン(BOS等)に、過剰な注意を割いてしまう現象
 • Massive Activation
 ◦ 一部のトークンの一部の次元が非常に大きいノルムを持つ
 出典)[2410.10781] When Attention Sink Emerges in Language Models: An Empirical View Attention Sink 
 Massive Activation

  59. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 65 反転の呪い 出典)[2309.12288]

    The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" • GPT-4は、トム・クルーズの母親の名前を正しく答えられる.
 • しかし、母親の名前を与えても、そこから「トム・クルーズ」を想起することはできな い。

  60. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 66 LLMの内省的挙動の理解 •

    LLMにsteering vectorを注入しながら,「何か思考が注入されていますか?」と聞く と「注入されています」と答えることがある.
 • 内部処理をメタ認知している?
 出典)Emergent Introspective Awareness in Large Language Models     私は、言語モデルを研究する解釈性研究者です。 モデル内部に「思考」を注入できます。 注入された思考を検出できますか? 検出できた場合、それは何についてですか? 
 「LOUD(大声)」や「SHOUTING(叫び)」 という単語に関連する注入された 思考があるように感じます。 注入された思考は検出されません。 通常どおり処理しています。 普通のLLM
 注入されたLLM 

  61. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 67 人間とLLMの内部回路の類似性 「振る舞いの類似」ではなく,LLM内部の回路/表現が,脳内のどの処理と対応してい

    るかの比較が可能になってきている
 • 階層構造
 ◦ 注意機構の早い段階は低次の感覚皮質(聴覚)に対応
 ◦ FFN は高次の連合野(意味・統合)に対応
 • 時間処理
 ◦ LLMの「層の深さ」は、人間の脳が言語を理解するときの「時間的な処理段階」に対応している
 出典)The Mind's Transformer: Computational Neuroanatomy of LLM-Brain Alignment | OpenReview    Temporal structure of natural language processing in the human brain corresponds to layered hierarchy of large language models | Nature Communications
  62. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 68 人間はLLMを理解できるのか(そもそも論) 解釈性の研究をしていると以下の哲学的な問題にぶつかる


    
 • 理解とは何か?
 ◦ 何がわかれば,私たちは満足するのか?
 ▪ 回路がわかれば良いのか?
 ▪ SAEで単一意味特徴に分解できれば良いのか?(還元主義) 
 ◦ メカニスティックとは?[Saphra +, 2024]
 
 • 対象が複雑すぎる
 ◦ LLMが人間に理解可能なアルゴリズムを実装している保証はない
 ◦ 人間とDLモデルのオントロジーの違いはモデルサイズが大きくなるほど広がる?
 
 出典)[2410.09087] Mechanistic?    [2206.05862] X-Risk Analysis for AI Research
  63. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 70 本日のまとめ LLMの分析・解釈可能性について解説しました


    
 • 安全性の観点や性能向上の観点から需要がある
 • (面白いことがたくさんわかる!)
 ◦ ゴールデン・ゲート・ブリッジニューロン!?
 
 • まずは,推論過程を見てみる
 ◦ ただあまり推論過程は信頼できない
 • もっと厳密にLLMの思考を知りたかったら内部状態を分析する
 ◦ probing, logit lens, steering vector, activation patching
 なぜLLMを分析するのか?
 どうやって LLMを分析するのか?
 まだまだLLMの内部挙動はわからないことだらけ 

  64. ©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 
 72 参考資料 日本語


    • 言語モデルの内部機序:解析と解釈 
 ◦ Benjamin先生,横井先生,小林さんのNLP学会のチュートリアル資料
 • LLM講座2024年「Day10. LLMの分析と理論」(後半パート)
 ◦ 去年のLLM講座の小林さんの資料
 • 機械論的解釈可能性の紹介
 ◦ 高槻さんのまとめ記事
 • Mechanistic Interpretability : 解釈可能性研究の新たな潮流
 ◦ JSAI2025のサーベイ論文
 英語 サーベイ論文
 • Mechanistic Interpretability for AI Safety -- A Review • A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models • A Primer on the Inner Workings of Transformer-based Language Models • Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks • Open Problems in Mechanistic Interpretability • Mechanistic?