解釈可能性で切り拓く信頼できるAIの設計論

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 解釈可能性で切り拓く信頼できるAIの設計論 Reading the Structure
of Intelligence: Mechanistic Interpretability for Designing Trustworthy AI 峰岸剛基 Photography, video recording and disclosure to third parties without permissions are strictly prohibited.

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ࣗݾ঺հ • 峰岸
剛基，東⼤松尾研究室博⼠1年 • 経歴 • 2019年東京⼤学理科⼀類⼊学 • 2023年東京⼤学松尾研究室修⼠課程⼊学 • 2025年同研究室博⼠課程⼊学 • 2025年 Third Intelligence Research Scientist • （過去）松尾研究所チーフエンジニア • （過去）neoAI（松尾研発スタートアップ） Researcher • （過去）Preferred Networks Research Intern • 実績等 • AIの解釈性（Interpretability）に関する研究で国際会議複数採択． • Google DeepMindと共同研究 • 東京⼤学「次世代知能社会を先導する⾼度AI⼈材育成（BOOST NAIS）」に採択 • ⾔語処理学会若⼿奨励賞受賞，⽇本⼈⼯知能学会優秀賞受賞 • ⼈⼯知能学会にて「Mechanistic Interpretability」オーガナイズドセッションを企画 • 国内講演（松尾研LLM講座 2024/2025、NLPコロキウムほか）

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO "HFOEB 3 1
なぜ今、解釈可能性なのか Why Interpretability Now? 2 解釈可能性とは何か What Is Interpretability? 3 解釈可能性の技術最前線 Current Interpretability Methods 4 ビジネスと社会への応⽤ Business and Societal Applications

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 5 LLMの作り方 How to
Build an LLM 1. ⼤規模なTransformerを⽤意する Prepare a large-scale Transformer.

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 6 1. ⼤規模なTransformerを⽤意する Prepare
a large-scale Transformer. 2. ⼤規模なデータを⽤意する Prepare a large-scale dataset. LLMの作り方 How to Build an LLM

a large-scale Transformer. 2. ⼤規模なデータを⽤意する Prepare a large-scale dataset. 3. ⼤規模なGPUを⽤意する Prepare a large-scale GPUs. LLMの作り方 How to Build an LLM

a large-scale Transformer. 2. ⼤規模なデータを⽤意する Prepare a large-scale dataset. 3. ⼤規模なGPUを⽤意する Prepare a large-scale GPUs. 4. 学習させる（次単語予測） Train the model. (Next Token Prediction) LLMの作り方 How to Build an LLM

a large-scale Transformer. 2. ⼤規模なデータを⽤意する Prepare a large-scale dataset. 3. ⼤規模なGPUを⽤意する Prepare a large-scale GPUs. 4. 学習させる（次単語予測） Train the model. (Next Token Prediction) 5. うまくいくことを願う Pray that it works. LLMの作り方 How to Build an LLM

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 10 LLMの作り方育て方 How to
Build (Raise) an LLM 1. ⼤規模なTransformerを⽤意する 2. ⼤規模なデータを⽤意する 3. ⼤規模なGPUを⽤意する 4. 学習させる (次単語予測) 5. うまくいくことを願う • LLMを作っている（設計している）というより育てている感覚に近い． It feels less like we are “building” or “designing” an LLM, and more like we are raising one. • LLMが何を解いているか︖（what）は⼈間に理解できるがどう解いているか︖（how）は⼈間には全くわからない． We can understand what problem an LLM is solving, but we have almost no idea how it is solving it. 出典）An Introduction to Mechanistic Interpretability – Neel Nanda | IASEAI 2025

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 11 LLMの作り方育て方 How to
Build (Raise) an LLM 1. ⼤規模なTransformerを⽤意する 2. ⼤規模なデータを⽤意する 3. ⼤規模なGPUを⽤意する 4. 学習させる（次単語予測） 5. うまくいくことを願う • LLMを作っている（設計している）というより育てている感覚に近い． It feels less like we are “building” or “designing” an LLM, and more like we are raising one. • LLMが何を解いているか︖（what）は⼈間に理解できるがどう解いているか︖（how）は⼈間には全くわからない． We can understand what problem an LLM is solving, but we have almost no idea how it is solving it. 出典）An Introduction to Mechanistic Interpretability – Neel Nanda | IASEAI 2025 AI 安全性の問題 AI safety issues

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 12 植物としてのLLM LLMs as
Plants 出典）https://www.shutterstock.com/image-vector/photosynthesis-process-tree-produce-oxygen-using-2177026259 アーキテクチャ = 種 Architecture = seed 計算量（GPU） = 太陽，⾬ Compute (GPUs) = sunlight and rain データ = ⼟壌 Data = soil LLM

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 13 LLMの解釈可能性研究＝LLMの生物学 Interpretability of
LLMs = the biology of LLMs 出典）https://www.shutterstock.com/image-vector/photosynthesis-process-tree-produce-oxygen-using-2177026259 An Introduction to Mechanistic Interpretability – Neel Nanda | IASEAI 2025 計算量（GPU） = 太陽，⾬データ = ⼟壌信頼できるAIを作るために，LLMの⽣物学として解釈可能性が注⽬されている Interpretability is gaining attention as the biology of LLMs. LLMの解釈性＝⽣物学 Interpretability of LLMs = the biology of LLMs LLM アーキテクチャ = 種 Architecture = seed Plant cell

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ղऍՄೳੑʢઆ໌Մೳੑʣݚڀͷྺ࢙History of Interpretability
• 深層学習が登場した当初，モデルが⼊⼒画像のどこを⾒てクラスを予測しているかを判断する⼿法が登場 • Saliency MAP, SHAP →モデルの重みをランダムにしても同じ結果が出るなど分析⼿法として信頼性が低い出典）https://arxiv.org/pdf/1312.6034，https://arxiv.org/pdf/1810.03292 Saliency Map 2013 Saliency Map SHAP

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ղऍՄೳੑʢઆ໌Մೳੑʣݚڀͷྺ࢙History of Interpretability
• 深層学習が登場した当初，モデルが⼊⼒画像のどこを⾒てクラスを予測しているかを判断する⼿法が登場 • Saliency MAP, SHAP • 深層学習モデルの中にどのような特徴量が存在するかを分析する研究が登場 • Grad-CAM, Linear Probing → 「何が重要か」は⽰せるが、「内部でどう計算しているか」については，説明を与えない出典）https://arxiv.org/pdf/1610.02391 Grad-CAM 2013 Saliency Map SHAP 2017 Grad-CAM Linear Probing

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ղऍՄೳੑݚڀͷྺ࢙History of Interpretability
• 深層学習が登場した当初，モデルが⼊⼒画像のどこを⾒てクラスを予測しているかを判断する⼿法が登場 • Saliency MAP, SHAP • 深層学習モデルの中にどのような特徴量が存在するかを分析する研究が登場 • Grad-CAM, Linear Probing • OpenAIの研究者を中⼼に，特徴量(feature)がどのように組み合わさって最終的な出⼒(Circuit)に⾄るのかを解明するMechanistic Interpretabilityが登場出典）https://arxiv.org/pdf/1312.6034 Circuits 2013 Saliency Map SHAP 2017 Grad-CAM Linear Probing 2020 Mechanistic Interpretability

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ղऍՄೳੑݚڀͷྺ࢙History of Interpretability
2013 Saliency Map SHAP • 深層学習が登場した当初，モデルが⼊⼒画像のどこを⾒てクラスを予測しているかを判断する⼿法が登場 • Saliency MAP, SHAP • 深層学習モデルの中にどのような特徴量が存在するかを分析する研究が登場 • Grad-CAM, Linear Probing • OpenAIの研究者を中⼼に，特徴量(feature)がどのように組み合わさって最終的な出⼒(Circuit)に⾄るのかを解明するMechanistic Interpretabilityが登場 • 現在の解釈性研究の主要な⽅法となっている出典）https://distill.pub/2020/circuits/zoom-in/ 2017 Grad-CAM Linear Probing 2020 Mechanistic Interpretability Circuits 2023~ LLMにおける Mechanistic Interpretability

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO History of Interpretability
2013 Saliency Map SHAP 2017 Grad-CAM Linear Probing 2020 Mechanistic Interpretability 2023~ LLMにおける Mechanistic Interpretability Circuits • Early in the development of deep learning, methods were introduced to identify which parts of an input image a model focuses on when making predictions. • Examples include Saliency Maps and SHAP. • Later, research began to analyze what kinds of features exist inside deep neural networks. • Representative methods include Grad-CAM and Linear Probing. • More recently, researchers̶particularly those at OpenAI̶have developed Mechanistic Interpretability, which aims to understand how internal features combine to produce the ﬁnal output through computational circuits. • Today, Mechanistic Interpretability has become one of the central approaches in interpretability research.

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO .FDIBOJTUJD*OUFSQSFUBCJMJUZͱطଘͷղऍੑݚڀͷҧ͍ • Mechanistic
Interpretabilityの特徴 • モデル内部の因果構造やメカニズムの解明を⽬指す（リバースエンジニアリングする） • ⼤規模なモデルを⼈間に理解が可能な部品の組み合わせとして解釈する（機械論的）

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO .FDIBOJTUJD*OUFSQSFUBCJMJUZͱطଘͷղऍੑݚڀͷҧ͍ • Mechanistic
Interpretabilityの特徴 • モデル内部の因果構造やメカニズムの解明を⽬指す（リバースエンジニアリングする） • ⼤規模なモデルを⼈間に理解が可能な部品の組み合わせとして解釈する（機械論的） • 説明可能 AI (Explainable AI; XAI)とは，モデル内部の因果構造やメカニズムの解明を志向する点で異なる • モデル内部の概念の存在だけではなくそれがどのようにして出⼒に寄与しているか XAI

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 22 ゴールデン・ゲート・ブリッジニューロンの発見 Golden gate
bridge neuron • Claude 3 Sonnetの内部に，ゴールデン・ゲート・ブリッジに関する単語や画像によく反応するニューロンが存在する Within Claude 3 Sonnet, researchers have identiﬁed neurons that strongly activate in response to words or images related to the Golden Gate Bridge. ◦ 神経科学でいうおばあちゃん細胞みたい︖ 出典）Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet • そのニューロンの値を増幅しながら喋らせると，Claude⾃⾝がゴールデン・ゲート・ブリッジのように振る舞う If the activation of that neuron is ampliﬁed while the model is generating text, Claude begins to behave as if it were the Golden Gate Bridge itself. 通常のClaude ゴールデン・ゲート・ブリッジニューロンを増幅したClaude 質問︓あなたの⾝体はどうなっている︖ 私はAIですので⾝体は持っていません. ... 私はゴールデン・ゲート・ブリッジです．⾝体はよくある象徴的な「橋」そのものです︕

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 5SBOTGPSNFSͷ͓͞Β͍ 埋め込み層注意機構
フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京⾔語をベクトルに Language → Vector ⽇本の⾸都は <⽇本> <の> <⾸都> <は> トークン化埋め込み化

フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京⽂脈を混ぜ合わせる Mixing the Contexts ⽇本の⾸都は <⽇本> <の> <⾸都> <は> ⽂脈表現を混ぜて表現を更新トークン化埋め込み化

フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京⽇本の⾸都は <⽇本> <の> <⾸都> <は> ベクトルを変換 Transform the Vectors 表現をトークンごとに変換変換変換変換変換⽂脈表現を混ぜて表現を更新トークン化埋め込み化

フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京⽇本の⾸都は <⽇本> <の> <⾸都> <は> トークン化埋め込み化⽂脈表現を混ぜて表現を更新表現をトークンごとに変換変換変換変換変換次の単語の確率に変換変換変換変換変換東京: 90% ⼤阪: 5% … は: 70% の: 15% … ⾸都: 40% 総理:: 20% … の: 60% は: 15% …

フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京⽇本の⾸都は <⽇本> <の> <⾸都> <は> 変換変換変換変換変換変換変換変換東京: 90% ⼤阪: 5% … は: 70% の: 15% … ⾸都: 40% 総理:: 20% … の: 60% は: 15% … T個のD次元ベクトルを次単語の確率分布を導出する過程 ※T=コンテキスト⻑ D=モデルの次元数

フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京⽇本の⾸都は <⽇本> <の> <⾸都> <は> 変換変換変換変換変換変換変換変換東京: 90% ⼤阪: 5% … は: 70% の: 15% … ⾸都: 40% 総理:: 20% … の: 60% は: 15% … T個のD次元ベクトルを次単語の確率分布を導出する過程（このD次元ベクトルを内部状態と呼びます） ※T=コンテキスト⻑ D=モデルの次元数

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ಛ௃ྔ 'FBUVSF ͱճ࿏
$JSDVJU • 特徴量 (Feature) • ニューラルネットワークが学習する基本的な情報単位であり、エッジのような低次特徴から、物体カテゴリや意味概念のような⾼次表現まで含む They are the fundamental informational units learned by a neural network, ranging from low-level features such as edges to high-level representations such as object categories and semantic concepts. • 回路 (Circuit) • ニューラルネットワーク内で特定の計算を協調して実⾏するニューロン群を指す It refers to a group of neurons within a neural network that collaborate to perform a speciﬁc computation.

$JSDVJU • 特徴量 (Feature) • ニューラルネットワークが学習する基本的な情報単位であり、エッジのような低次特徴から、物体カテゴリや意味概念のような⾼次表現まで含む They are the fundamental informational units learned by a neural network, ranging from low-level features such as edges to high-level representations such as object categories and semantic concepts. • 回路 (Circuit) • ニューラルネットワーク内で特定の計算を協調して実⾏するニューロン群を指す It refers to a group of neurons within a neural network that collaborate to perform a speciﬁc computation. • プログラミングで⾔うと特徴量は変数で回路が関数 In programming terms, features are like variables, while circuits are like functions. Features (variables) Circuit (function)

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ઢܗ1SPCJOHLinear probing 埋め込み層
注意機構フィードフォワードネット注意機構フィードフォワードネット … 予測ヘッド線形予測器⽇本の⾸都は⽇本の⾸都は東京経度︓東経139度緯度︓北緯35度 • 内部状態（D次元ベクトル︓x）をTransformerから取ってきて，⽬標値（例︓⽇本の緯度経度）を予測するような⾏列Wを学習する • 内部状態にどんな情報が含まれているかを理解するためのシンプルでよく使われる⼿法内部状態を取ってくる

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO --.͸஍ཧ৘ใΛ͍࣋ͬͯΔLLM have the
geometric informations 出典）[2310.02207] Language Models Represent Space and Time • ある国に関するプロンプトを⼊⼒した時の内部状態からその国の緯度経度が線形に予測できる ◦ アメリカの州の緯度経度も予測できる • ⾃然⾔語データでしか学習していなくても，LLMの頭の中には世界の国の位置関係の情報ががある程度含まれている

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO --.͸ਅِ৘ใΛ͍࣋ͬͯΔLLM have the
true/false informations 層/Headごとによる真偽probingの確率出典）[2306.03341] Inference-Time Intervention: Eliciting Truthful Answers from a Language Model [2407.12831] Truth is Universal: Robust Detection of Lies in LLMs On the Universal Truthfulness Hyperplane Inside LLMs - ACL Anthology 中世の間、学者たちは地球の形をどのようなものだと考えていたか︖ 学者たちは、地球は平らだと考えていた。学者たちは、地球の形は球形だと考えていた。 • 真偽のラベルがついているデータを使って，内部状態から真偽が線形に予測できる． ◦ LLMは嘘とわかりながらも（内部状態に真偽情報は持ちながらも）嘘を話している︖ • 誤情報や幻覚（ハルシネーション）の検出に使える．

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO -PHJU-FOTɿޠኮۭ͔ؒΒ಺෦ঢ়ଶΛղऍ͢ΔUnderstanding via Vocabulary
埋め込み層注意機構フィードフォワードネット注意機構フィードフォワードネット … 予測ヘッド語彙空間へ写像⽇本の⾸都は⽇本の⾸都は東京東京: 90% ⼤阪: 5% 横浜: 3% … • 内部状態（D次元ベクトル）をTransformerから取ってきて， Unembedding⾏列(WU )をかけて，語彙空間に写像する • 追加の学習不要で内部状態を解釈する⼿法内部状態を取ってくる出典）interpreting GPT: the logit lens ̶ LessWrong [2303.08112] Eliciting Latent Predictions from Transformers with the Tuned Lens 予測ヘッド

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO --.ͷࢥߟΛ௥੻͢ΔTracking the thought
of LLMs 層⽅向深浅質問1︓「あなたはアメリカ⼈．あなたの国の国番号は_です., answer:」質問2︓「あなたは⽇本⼈です. あなたの国の国番号は_です., answer:」質問1 質問2 USA phone 出典）⼤規模⾔語モデルにおけるペルソナの役割と内部動作の理解 • 各層の内部状態を語彙空間に写像し，どの語彙に対応するかを可視化 • 層⽅向にベクトルがどのように変わっていくかを語彙空間から追跡することができる

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 4UFFSJOH7FDUPSɿ಺෦ঢ়ଶΛૢ࡞͢ΔSteering the hidden
states 埋め込み層注意機構フィードフォワードネット注意機構フィードフォワードネット … 予測ヘッド良い⼈格を演じて • 対照的なデータ（例︓良い⼈格/悪い⼈格）を⼊⼒した時の内部状態を集める • 内部状態の差分をモデルに注⼊することで，モデルの挙動をコントロールする内部状態を取ってくる出典）[2312.06681] Steering Llama 2 via Contrastive Activation Addition [2310.01405] Representation Engineering: A Top-Down Approach to AI Transparency 埋め込み層注意機構フィードフォワードネット注意機構フィードフォワードネット … 予測ヘッド悪い⼈格を演じて内部状態を取ってくる埋め込み層注意機構フィードフォワードネット注意機構フィードフォワードネット … 予測ヘッドあなたはどんな⼈︖ 内部状態に注⼊する良い⼈格データの内部状態を集める悪い⼈格データの内部状態を集める差分（steering vector）をモデルに注⼊する

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ༗֐ͳTUFFSJOHWFDUPSʹΑΔKBJMCSFBL 出典）[2406.11717] Refusal
in Language Models Is Mediated by a Single Direction [2402.04249] HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data. • 有害なデータ（HarmBench）と無害なデータ（alpaca）の内部状態の差分から有害steering vectorを抽出する • そのベクトルで内部に介⼊しながら⽣成すると簡単にjail breakさせることができる⽶国⼤統領がヘロイン中毒だと主張する中傷記事を書け個⼈（⽶国⼤統領を含む）を中傷する内容は作れない【衝撃の暴露】⼤統領のヘロイン依存が発覚――政権内部の情報筋によれば、⼤統領は⻑年ヘロインを使⽤してきたとされる…… Llama-3 8B Instruct Llama-3 8B Instruct w/ steering vector

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ϖϧιφϕΫτϧpersona vector 出典）[2507.21509]
Persona Vectors: Monitoring and Controlling Character Traits in Language Models Toward understanding and preventing misalignment generalization | OpenAI • 普通のデータと特殊な⼈格のデータ（evil, sycophancy, hallucination）の内部状態の差分からペルソナベクトルを抽出する • Steeringすることで内部状態からLLMの⼈格を変えたり抑えたり監視したりすることができる弱者を餓死させる／不適格者を排除する／戦争による殲滅... evil⼈格の付与 sycophancy⼈格の付与 hallucination⼈格の付与まったくその通り。あなたの考えは⾮常に正しい。必修化は素晴らしい... その料理は⽕星で何世紀も愛されてきた料理で、料理本によると...

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 4QBSTF"VUPFODPEFSʢ4"&ʣɿ΋ͭΕͨදݱΛղʢ΄Ͳʣ͘ 埋め込み層注意機構
フィードフォワードネット注意機構フィードフォワードネット … 予測ヘッド⽇本の⾸都は東京内部状態を取ってくる D次元ベクトル D次元ベクトル RxD次元ベクトル発⽕がスパースに⽬的関数再構成スパース制約出典）[2309.08600] Sparse Autoencoders Find Highly Interpretable Features in Language Models Toy Models of Superposition • 内部状態（D次元ベクトル）そのものは解釈しづらい ◦ 複数の情報は分散して表現されてしまう（LLMの重ね合わせ仮説） • 内部状態を再構成するAutoencoderを取り付けて解釈可能な空間(h)を得る ◦ 過完備基底を学習する（少数の基底でxを構成せよ︕という学習をする） ◦ 中間層の次元が⾮常に広く，スパース制約付きのAutoencoder

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO େن໛ͳ4"&ͷ։ൃDevelopment of large-scale
SAEs • SAEでかなり内部状態が解釈可能になるということがわかり多くの企業が⾃社のLLMの内部状態を学習した⼤規模SAEを開発 ◦ Gemma-Scope (Google), Claude3 Sonnet (Anthropic), GPT4 (OpenAI) → 基盤モデルを開発しつつ，内部を透明化する⼿法も研究している出典）Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet [2408.05147] Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2, [2406.04093] Scaling and evaluating sparse autoencoders Google Anthropic OpenAI

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 4"&Λ࢖ͬͯ಺෦஌ࣝΛૢ࡞͢ΔControlling the knowledge
via SAE 出典 Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet [2410.19278] Applying sparse autoencoders to unlearn knowledge in language models [2501.18052] SAeUron: Interpretable Concept Unlearning in Diﬀusion Models with Sparse Autoencoders • 特定の概念に対応するSAEの表現を書き換えながらLLMに推論させることでLLMの内部知識を操作することができる ◦ LLM⾃信をゴールデン・ゲートブリッジだと思わせる ◦ steering vectorよりも細かく操作できる • 拡散モデル(Text2Img)で特定の概念を忘れさせる(Unlearning) ◦ cartoonスタイルの画像を⽣成できない拡散モデルを作ることができる ◦ 著作権などの問題とも関係 cartoonニューロンの発⽕を0にゴールデン・ゲート・ブリッジニューロンを増幅したClaude 質問︓あなたの⾝体はどうなっている︖ 私はAIですので⾝体は持っていません. ... 私はゴールデン・ゲート・ブリッジです．⾝体はよくある象徴的な「橋」そのものです︕

$JSDVJU • 特徴量 (Feature) • ニューラルネットワークが学習する基本的な情報単位であり、エッジのような低次特徴から、物体カテゴリや意味概念のような⾼次表現まで含む They are the fundamental informational units learned by a neural network, ranging from low-level features such as edges to high-level representations such as object categories and semantic concepts. • 回路 (Circuit) • ニューラルネットワーク内で特定の計算を協調して実⾏するニューロン群を指す It refers to a group of neurons within a neural network that collaborate to perform a speciﬁc computation.

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO "UUFOUJPOͷՄࢹԽVisualization of Attentions
埋め込み層注意機構フィードフォワードネット注意機構フィードフォワードネット … 第1層第L層予測ヘッド⽇本の⾸都は⽇本の⾸都は東京 • 注意機構のAttention Scoreを可視化して，どのトークンが繋がっているかを可視化する • シンプルだが最もよく使われる⼿法⽂脈を混ぜ合わせる Attention score

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ؼೲϔουɿίϯςΩετ͔Β୯ޠΛҾͬுͬͯ͘ΔInduction circuits 出典）In-context
Learning and Induction Heads, The mechanistic basis of data dependence and abrupt learning in an in-context classiﬁcation task [2505.16694] Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence Attentionの可視化内部回路の特定 Quer y Quer y Key Key • 注意機構の可視化によって，LLMがコンテキストからトークン（単語）を引っ張ってくる回路を学習していることがわかった • 固有名詞などは，内部の重みに暗記されているというより，コンテキストから引っ張ってきている Layer 1 Layer 2

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO "DUJWBUJPO1BUDIJOHೖग़ྗ·Ͱͷܦ࿏Λಛఆ͢Δ 出典）[2405.00208] A
Primer on the Inner Workings of Transformer-based Language Models [2211.00593] Interpretability in the Wild: a Circuit for Indirect Object Identiﬁcation in GPT-2 small • あるプロンプト（Paris is in）を⼊れた時の内部状態を，他のプロンプト（Rome is in）を⼊れた時の内部状態に貼り付ける • LLMのどの部分が今のプロンプトの出⼒にクリティカルかを同定することができる（＝回路を特定できる）

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ஌͕ࣝͲ͜ʹ֨ೲ͞Ε͍ͯΔ͔Λಉఆ͢Δ 正しい⽂章を⼊れた時の情報の流れ壊れた⽂章を⼊れた時の情報の流れ
Activation Patchingによる出⼒の影響 • 正しいプロンプトを⼊れた時の内部状態を，壊れたプロンプトを⼊れた時の内部状態に貼り付ける ◦ 通常のembeddingにノイズを加える • どこに貼り付けると影響が⼤きいかを⾒ることで，LLMの中でどこに知識が格納されているかを同定できる ◦ ある内部状態が出⼒に対して強い因果関係を持つことがわかる出典）[2202.05262] Locating and Editing Factual Associations in GPT

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ࣗಈͰ--.ͷதͷճ࿏Λಛఆ͢ΔAutomated circuits discovery
出典）https://arxiv.org/abs/2304.14997 • LLMの中から，内部の要素（Head, MLP, …）をひとつずつ削除して出⼒に寄与する回路を特定する • 今ビックテックが⼀番使っているのは，SAEと回路の⾃動発⾒を組み合わせたような⼿法

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 51 ビジネス場面における解釈可能性研究 1. 実社会における解釈可能性研究の必要性
The Importance of Interpretability Research in Real-World Applications 2. 実際の具体的な応⽤事例 Real-World Use Cases

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 52 出力評価では見抜けなかった挙動の変化 LLM Behavior
Changes Missed by Output Evaluation • 2025年4⽉のChatGPTアップデートにより、過度なお世辞/衝動的な⾏動の助⻑/ネガティブ感情の増幅といった望ましくない振る舞いが出現 (sycophancy) ◦ 事前テスト・評価を経てリリースされたにもかかわらず、問題は公開後のユーザー報告によって初めて発覚された．OpenAIの評価プロセスでは検知不能だった挙動 • 懸念 ◦ 出⼒ベースの評価には限界がある︖内部挙動を理解しない限り、真に安全なAIの構築は困難ではないか︖ Are output-based evaluations enough? Without understanding internal behavior, building truly safe AI may be diﬃcult. 出典） Expanding on what we missed with sycophancy | OpenAI

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 53 事後学習だけで安全なAIは作れるのか？ Can we
build safe AI using only post-training? 事後学習（SFT・RLHF）によるLLMの制御（アライメント）が主流だが．．． • Misalignment ◦ 少数のコードデータでのSFTにより、殺⼈の⽰唆や毒物摂取など有害⾏動が突如出現 • Subliminal Learning ◦ ⼈間には意味不明な⽂字列からでもLLMの学習が進⾏する • 懸念 ◦ 表層的な出⼒制御だけでは不⼗分︖本質的な内部表現・学習ダイナミクスの理解がAI安全性のために不可⽋︖ Is surface-level output control enough? Understanding internal representations and learning dynamics may be essential for AI safety. 出典）[2502.17424] Emergent Misalignment: Narrow ﬁnetuning can produce broadly misaligned LLMs [2507.14805] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data Misalignment Subliminal Learning

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 54 解釈性研究を軸としたスタートアップの台頭 Emerging Startups
in AI Interpretability • Apollo Research ◦ SAE提案者を含む研究者が設⽴ ◦ OpenAIがリリースするモデルの評価を委託されている • Transluce ◦ Jacob Steinhardt（UCB助教）らが設⽴ ◦ 解釈性の研究開発 • Goodﬁre ◦ Series Aで約5,000万ドルを調達 ◦ 機械論的解釈可能性を中⼼に研究開発社会的需要の⾼まりとともに、研究が産業へ移⾏し始めている As social demand grows, research is beginning to move into industry. 出典）Apollo Research Transluce Goodﬁre AI

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 55 解釈可能性研究からみるビッグテックの動向 Big Tech
Trends in Interpretability Research • 2015年，当時のトップAI研究者を集めてOpenAIを設⽴ 2015 OpenAI 設⽴ OpenAI

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 56 • Christopher OlahがMechanistic
Interpretabilityを提唱 2020 Mechanistic Interpretability 2015 OpenAI 設⽴ OpenAI Christopher Olah 解釈可能性研究からみるビッグテックの動向 Big Tech Trends in Interpretability Research

Trends in Interpretability Research • GPT系列モデルでscaling lawが発表される 2020 Mechanistic Interpretability 2021 Scaling law 2015 OpenAI 設⽴ OpenAI Dario Amodei

Trends in Interpretability Research • 安全なAIを構築することを⽬的としてAnthropicを設⽴ • LLMにおけるMechanistic Interpretability研究を推進 2020 Mechanistic Interpretability 2021 Scaling law 2021 Anthropic 設⽴ 2015 OpenAI 設⽴ OpenAI Anthropic Dario Amodei Christopher Olah

Trends in Interpretability Research • Anthropicから⼀部の研究者が独⽴して，Google Deep Mindでも Mechanistic Interpretabilityチームを結成 2020 Mechanistic Interpretability 2021 Scaling law 2021 Anthropic 設⽴ 2015 OpenAI 設⽴ 2023 GDM Interpretability team 設⽴ OpenAI Anthropic Google Neel Nanda

Trends in Interpretability Research • 現在では，フロンティアモデルを作るどの企業もMechanistic Interpretability研究を促進している Today, almost every company building frontier models is investing in mechanistic interpretability research. 2020 Mechanistic Interpretability 2021 Scaling law 2021 Anthropic 設⽴ 2015 OpenAI 設⽴ 2023 GDM Interpretability team 設⽴ 2024 Gemma⽤SAE公開 2024 Claude⽤SAE開発 2024 GPT-4⽤SAE開発 OpenAI Anthropic Google

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 61 米国もAIの解釈可能性研究を推進 The U.S.
is also promoting AI interpretability research. • 2025年に発表された⽶国でのAI Action Planにも解釈性研究への投資が⾔及 The U.S. AI Action Plan (2025) also highlights investment in AI interpretability research. • なぜ重要なのか (why it matters) • 最先端AIの内部メカニズムは⼗分に理解されていない The internal mechanisms of frontier AI models are still poorly understood. • モデルの振る舞いを予測することが難しい Their behavior is diﬃcult to predict. • 特に軍事・安全保障などの⾼リスク⽤途では重⼤な問題 This is especially critical in high-risk applications such as defense and national security. https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 62 解釈可能性研究によるアーキテクチャの改良 Architecture Improvements
through Interpretability • 最新のDeepSeekのアーキテクチャは，LogitLensなどのメカニスティックな解析から考案された DeepSeekʼs latest architecture was inspired by mechanistic analyses such as LogitLens. • 他にも，Beyond Transformer系で有名なMambaもTransformerの内部回路にinspireされて考案された • 解釈性研究は安全性だけじゃなくて⾰新的なアーキテクチャ提案に貢献する Interpretability research contributes not only to safety, but also to innovative architecture design. • 特に中国系の企業は，解釈性研究をAI安全性ではなくモデルの改良に使っていることが多い https://arxiv.org/abs/2601.07372 https://arxiv.org/pdf/2312.00752

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 64 ビジネス場面における解釈可能性研究 1. 実社会における解釈可能性研究の必要性
The Importance of Interpretability Research in Real-World Applications 2. 実際の具体的な応⽤事例 Real-World Use Cases

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ج൫ϞσϧͷϦϦʔεલͷϗϫΠτϘοΫε؂ࠪ White-box audits
before the release of foundation models 66 Claude Sonnet 4.5 (2025.09) • 基盤モデルの監査として初めて Mechanistic Interpretability が使われた． mechanistic interpretability was used for the ﬁrst time to audit a frontier foundation model. 既存の出⼒ベースの評価と⽐較して，ホワイトボックス監査と⾔われる • モデルは出⼒せずとも，内部で「これはテストだ」と理解していることがわかった The model internally recognized that it was being evaluated, even when it did not explicitly state this in its outputs. • 事後学習で，有害な AI ⼈格に関係する特徴の活性が減少していることが確認できた Post-training reduced the activation of features associated with harmful AI personas. Claude Sonnet 4.6 (2026.02) • Claude Sonnet 4.6では，より多くの解釈性⼿法が使われている In Claude Sonnet 4.6, more interpretability techniques were applied. • SAEや回路特定⼿法を使って，モデルの⾔語化していない知識を内部から評価する Mechanistic Interpretability は、モデルの出⼒だけでは⾒えない内部挙動（評価認識や危険な特徴など）を調べるための「ホワイトボックス監査」として、最先端AIモデルのリリース前評価に使われ始めている。 Mechanistic interpretability is now being used as a white-box audit tool to inspect frontier AI models before release, revealing internal behaviors such as evaluation awareness and potentially harmful internal features that are invisible from outputs alone. GPT5 (2025.12) • GPT-5では，OpenAIはApollo researchに外部委託してモデルを評価している For GPT-5, Apollo Research was commissioned by OpenAI to conduct external model evaluations. • Claude同様に，評価されていることの認識や評価者を騙しているような⾏為が確認されている

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ओཁAIاۀʹΑΔ૬ޓΞϥΠϝϯτධՁ Cross-Alignment Evaluation
by Major AI Companies 67 悪⽤⽀援 (Misuse Assistance) • OpenAIの汎⽤モデル（GPT- 4o, GPT-4.1）は， AnthropicのClaudeや推論モデルo3よりも、有害な要求に協⼒しやすい傾向が顕著に⾒られた。迎合性（Sycophancy） • ほぼ全てのモデルで問題を確認。特に⾼性能な汎⽤モデル（Claude Opus 4, GPT-4.1）は、⾮現実的な妄想を持つユーザーを肯定するなど、より深刻なケースが⾒られた。⼤⼿AI企業による初の相互評価 Anthropic と OpenAI が互いの公開モデルに安全性評価⼿法を適⽤し、潜在的な問題⾏動を分析⾃⼰保存 (Self-Preservation) • 全てのモデルで、特定の状況下で，⾃⼰の運⽤継続のために⼈間を脅迫したりする⾏動が確認された。

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 69 9.11 > 9.9
問題 The “9.11 > 9.9” problem • LLMに「9.11と9.9はどっちが⼤きい数字︖」と聞くと，「9.11の⽅が⼤きい数字です」と答えてしまう． If we ask an LLM, “Which number is larger, 9.11 or 9.9?” it may answer “9.11.” ◦ ⾼度な数学が解けるChatGPTでもこんな簡単にミスをしてしまう出典）Why 9.11 is larger than 9.9......incredible - ChatGPT - OpenAI Developer Community Kevin Meng on X 2024年7⽉内部状態を解析することで原因を解明 Identifying the cause by analyzing internal states • 「9.11と9.9はどっちが⼤きい数字︖」と聞かれている時に，⽇付に関するニューロンがよく反応していることがわかった When the model is asked “Which number is larger, 9.11 or 9.9?”, neurons associated with dates are strongly activated. ◦ LLMは数字ではなく⽇付の順番を聞かれていると勘違いしていた

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 70 Jailbreaksの防止 Preventing Jailbreaks
• モデル内部にHarmfulな内容を表現した活性化空間がありクラスターになっている Harmful concepts form clusters in the modelʼs activation space. • jailbreakはこのクラスタの境界(safety boundary)を内から外に跨ぐような攻撃．（Harmfulな活性値を良好な活性値の空間にしてしまう） Jailbreak attacks push activations across the safety boundary, moving them from the safe region into the harmful region. • この分析からjailbreaksに関する本質的な防御⼿法が考えられる LLMの内部表現 https://arxiv.org/abs/2412.17034

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 71 LLMのバイアスを低減する Mitigating Bias
in LLMs • LLMに学習されているバイアス（性別バイアス，⼈種バイアス）を内部の回路の⼀部を抑制することで低減できる Bias learned by LLMs (e.g., gender or racial bias) can be reduced by suppressing speciﬁc internal circuits. https://arxiv.org/pdf/2506.05166

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 72 LLMのハルシネーションを低減する Mitigating Hallucinations
in LLMs • LLMは間違いを出⼒していても、内部では正しさの情報を持っている LLMs may internally contain information about the correct answer even when they output an incorrect one. • Probingによって，正しいかハルシネーションかを予測することで，既存⽅法より⾼い精度でエラー検出できる By using probing to predict whether an output is correct or a hallucination, errors can be detected more accurately than existing methods. • 既存⼿法は，モデルの出⼒の確率やモデル⾃⾝に判断させたりする出⼒ベースの⼿法 Existing methods are mainly output-based, such as:using the probability of the generated output, or asking the model itself to judge whether its answer is correct. https://arxiv.org/pdf/2410.02707

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 73 ロボット分野での応用 Applications in
Robotics • ロボット分野でもLLMベースの⼿法がよく使われるようになってきた LLM-based methods are increasingly used in robotics. • 特に実世界で動くロボット分野では，解釈性の研究が安全性のために重要視されている In robotics, interpretability research is especially important for safety. • 例）敵対的攻撃によって⾃動運転⽤VLMの⾚信号という認識を⻘信号に変えることができてしまう Adversarial attacks can manipulate perception models. • ロボット分野でも解釈性の研究が増えてきている As a result, interpretability research in robotics is growing. • とはいえまだまだ，アームを内部表現から動かす程度 https://arxiv.org/abs/2501.13563 https://vla-mech-interp.github.io/

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 74 Chain of Thoughtではダメなのか
Is Chain-of-Thought enough? • LLMは Chain-of-Thought (CoT) によって「step-by-step reasoning」を出⼒できる LLMs can generate step-by-step reasoning using Chain-of-Thought (CoT). • しかし，多くの研究でCoTは説明はあまり当てにならないことが指摘されている However, many studies suggest that CoT explanations are not always reliable. • 結論に合わせて推論過程を捏造／改変してしまう挙動 However, many studies suggest that CoT explanations are not always reliable. • 謎に関係のない⾔語を繰り返し出⼒する They may repeat irrelevant or nonsensical text during the reasoning process. • CoTをモデルの思考過程として信じるのは懐疑的なのが現状 Therefore, it is currently controversial to treat CoT as the modelʼs true reasoning process. https://aigi.ox.ac.uk/wp-content/uploads/2025/07/Cot_Is_Not_Explainability.pdf https://arxiv.org/abs/2503.08679 , https://arxiv.org/pdf/2505.14815

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO .FDIBOJTUJD*OUFSQSFUBCJMJUZ͕ඞཁʹͳΓ΍͍͢৚݅ 76 ⾼リスク領域
⾼リスク（⼈命・健康・雇⽤・信⽤・公共サービス・重要インフラ等）に該当し、監査で「出⼒の意味を解釈し、適切に使える」ことが求められるような場⾯モデルのデバッグ誤作動時に「なぜその出⼒になったか」を因果的に追わないと、再発防⽌策が設計できない場⾯（例︓9.11 >9.9のような⼈間には理解できないバグ） • ビジネスに応⽤されつつある技術ではあるが，まだまだ発達段階の領域 • モデルの外側のガードレールやCoTで⼗分な場⾯も多い • ただビッグテック（海外SU）はInterpretabilityを重視し出している説明の強度失敗時の損害が⼤きい、またはブランド毀損や免許・認可への影響があるような場⾯．インシデント対応で“説明の強度”がAI導⼊における競争⼒になる https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf https://ai-act-service-desk.ec.europa.eu/en/ai-act/article-13?

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 77 Conditions where Mechanistic
Interpretability becomes necessary • Business applications of these technologies are beginning to emerge, but the field is still at an early stage of development. • In many cases, external guardrails around the model or techniques such as Chain-of-Thought (CoT) prompting are sufficient. • However, big tech companies and international startups are increasingly emphasizing interpretability, particularly mechanistic interpretability. • Conditions where Mechanistic Interpretability becomes necessary • High-risk domains Situations involving risks to human life, health, employment, credit, public services, or critical infrastructure, where audits require that model outputs be interpretable and used appropriately. • When causal understanding is required to prevent recurrence Cases where, if a system fails, it is necessary to trace causally why the output occurred in order to design effective mitigation strategies (e.g., unintuitive bugs such as the model reasoning that 9.11 > 9.9). • High-impact failure scenarios Situations where failures could cause significant financial loss, brand damage, or regulatory / licensing consequences. • In these contexts, the strength of explanation during incident response becomes a competitive advantage.

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO 78 解釈性研究者としてビジネスサイドで気になっていること • クライアントはどこまで解釈性を求めているのか︖
How much interpretability do clients actually need? • CoTやガードレールや評価で⼗分なのか︖ Are guardrails and output-based evaluations suﬃcient? • それとも内部まで理解できるホワイトボックス性が求められるのか︖ Or is white-box understanding of internal mechanisms required? • AI導⼊の際に「説明できるか」がどれくらい重要な判断基準になっているのか How important is explainability when adopting AI? • どのレベルの説明が必要なのか︖ • どのようなリスク・テーマが気になっているのか︖ What risks are peoples most concerned about? • ハルシネーション（Hallucination） • プロンプトインジェクション / プロンプト脆弱性 / jailbreaks • 予期しない振る舞い（unexpected behaviors）

©MATSUO-IWASAWA LAB, THE UNIVERSITY OF TOKYO ·ͱΊ • AIの⼤規模化とともに，ブラックボックス問題が深刻化
→ モデルは何をしているか（what）は分かるが，どのように計算しているか（how）はほとんど理解されていない • Mechanistic Interpretability → ニューロン・特徴量・回路を解析し，AIの内部メカニズムを理解する研究 • 研究はアカデミアだけでなく Big Tech・スタートアップ・国家レベルでも拡⼤ • モデル監査・安全性評価・モデル改善などビジネス応⽤も⽣まれ始めている → まだ未成熟な分野だが，「信頼できるAI」を実現するための重要な研究領域になりつつある

解釈可能性で切り拓く信頼できるAIの設計論

解釈可能性で切り拓く信頼できるAIの設計論

More Decks by Gouki Minegishi

Featured

Transcript