大規模言語モデルと機械論的解釈性：その展開と現在地

大規模言語モデルと機械論的解釈性：その展開と現在地 2025/08/05 東京大学松尾・岩澤研究室 D1 峰岸剛基

自己紹介 • 学部：東大機械工学 • 修士：東大松尾・岩澤研 • 修士論文「特徴量と回路の分析を通じたニューラルネットワークの解釈性に関する研究」 •
博士：東大松尾・岩澤研 1年 • 研究 • Grokkingの宝くじ仮説の観点からの分析(TMLR’25), 多項式の分析(TMLR’24) • 多義語を使ったSAEの新たな評価指標の提案(ICLR’25) • 文脈内学習におけるCircuitの学習ダイナミクスの分析(ICML’25) • Reasoning Modelの内部挙動をグラフ理論の観点から分析

目次 • 深層学習モデルを解釈したいモチベーション (15分) • 純粋なcuriosityとAI safetyの需要 • 解釈性研究の歴史から最近のトレンド (15分)
※全て主観になります

https://www.youtube.com/watch?v=sISodZSxNvc&t=8s

https://www.youtube.com/watch?v=sISodZSxNvc&t=8s 内部挙動がわかって何がしたいんですか？

モデルの内部挙動がわかって何が嬉しいか 1. 純粋な好奇心 (Curiosity) 「知能の仕組みを理解したい！」目の前に人間の知能相当のものがある．→中身がどうなっているか知りたい！ 2. 社会的需要 (Need) AIの性能が急速に向上し社会に普及している中でモデルを監視・制御
する必要がある https://www.youtube.com/watch?v=DWlDyvscz5M

好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法理論的なアプローチ

好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法理論的なアプローチ ICLの仕組みってなんだろう ? →実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが
可能) [Oswald+2023]

好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法理論的なアプローチ ICLの仕組みってなんだろう ? →実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが
可能) [Oswald+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデルなど)

好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法理論的なアプローチ動物行動学なアプローチ ICLの仕組みってなんだろう ?
→実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが可能) [Oswald+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデルなど)

→実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの性能が高いです．パラメータ数が重要？ [Wei+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデルなど)

→実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの性能が高いです．パラメータ数が重要？ [Wei+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデルなど) Pros:　大きい現実的なモデルで実験できる Cons: 厳密な理解には遠い

→実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの性能が高いです．パラメータ数が重要？ [Wei+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデルなど) Pros:　大きい現実的なモデルで実験できる Cons: 厳密な理解には遠い Mechanistic Interpretability

→実はICLはforward方向の誤差逆伝播でした(Transformerだと理論的にこれが可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの性能が高いです．パラメータ数が重要？ [Wei+2023] 大きいモデルにも適応可能．個人的に一番知能の理解に近づけると思った（＝好奇心を満たしてくれた） Pros:　大きい現実的なモデルで実験できる Cons: 厳密な理解には遠い Mechanistic Interpretability ICLの仕組みってなんだろう ? →コントロール実験や介入などの神経科学的アプローチで ICLを実行する必要最小限の回路を見つけました． [Olsson+2022] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデルなど)

モデルの内部挙動がわかって何が嬉しいか 1. 純粋な好奇心 (Curiosity) 「知能の仕組みを理解したい！」目の前に人間の知能相当のものがある．→中身がどうなっているか知りたい！ 2. 社会的需要 (Need) AIの性能が急速に向上し社会に普及している中でモデルを監視・制御
する必要がある → AI safety https://www.youtube.com/watch?v=DWlDyvscz5M

AI safety •事後学習(SFT, RLHF)だけで安全なAIが作れるか？ •Emergent Misalignment • 脆弱なコードでファインチューニングすると殺人を示唆、毒物の摂取などの有害な回答をするようになった •Subliminal
Learning • 人間には理解できない文字列で学習できてしまう [Betley+2025] [Cloud+2025]

Mechanistic Interpretabilityと社会的需要 •2025年4月のChatGPTのUpdate • ChatGPTが突如として過度のお世辞を述べたり、衝動的な行動を促したり、ネガティブな感情を強化するような振る舞いを始めた． • 事前テストを経てリリースされたにもかかわらず、公開後にユーザーの報告によって初めて明らかになった．
• OpenAIの事後学習や評価の手法では、検知できなかった → 内部挙動がわからないと安全な AIは作れない？ https://openai.com/index/expanding-on-sycophancy/　

ビッグテックとMechanistic Interpretability • Google DeepMind • Neel Nanda率いるチーム • Anthropic
• Cris Olah率いるチーム • OpenAI • 2024年5月「スーパーアライメントチーム解散」 • o1,o3などの新モデルの評価をApollo Researchに委託

Start-UpとMechanistic Interpretability • Apollo Research • Lee Sharley(SAEの生みの親)など中心に設立 • 現在は解釈性より評価中心に研究
• Transluce • Jacob Steinhardt(UCB助教)中心に設立 • Goodfire • Mechanistic Interpretabilityの有名な研究者が集まる • シリーズAで5,000万ドル(約73億円)調達社会的需要とともにお金も集まり始めている

目次 • 深層学習モデルを解釈したいモチベーション (15分) • 純粋なcuriosityとAI safetyの需要 • 解釈性研究の歴史から最近のトレンド (15分)
※全て主観になります

Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 ? CN N
Grokking, Circuit SparseAutoencoder • 大きいトレンドは~1年くらいで変わる • 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されることが多くキャッチアップが大変

Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 Grokking • 大きいトレンドは~1年くらいで変わる
• 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されることが多くキャッチアップが大変

Grokking背景 • OpenAIが2022年にTransformerに簡単な算術問題を解かせていたら発見した現象 • 算術問題: (a+b)%p=c • 過学習（暗記）してしばらく経ってから，急に汎化性能が上がる •
今まで機械学習の直感に反する（普通過学習したらEarly Stopとかする）「暗記と汎化の間で何が起こっているのか？」  何が起きてる？暗記解汎化解

モデルをリバースエンジニアリングする • 加算モジュラ演算を行うネットワーク • Embedding: cos/sinに入力をマッピング • Transformer: 加法定理 •
Unembedding: 答え(c)との類似度をlogitとして計算 • 重要なのは，NNが行っているアルゴリズムを人間が理解できる形にできたこと • このアルゴリズム自体は数学者ガウスが100年以上前に見つけている • 論文の著者(Neel)もモデルがこのアルゴリズムを実装しているとは思わなかった Neel+2023

Grokkingのその後 • NNの中身がリバースエンジニアリングできるという事実が注目が高まる • ICLR’23(notable-top-25%), Progress measures for grokking via
mechanistic interpretability • ICLR’23(oral), Omnigrok: Grokking Beyond Algorithmic Data • Neurips’23(oral), The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks • ICML’25(oral), Emergence in non-neural models: grokking modular arithmetic via average gradient outer product • ただ実世界のLLMに対する貢献がわかりづらく最近はあまり研究されていない • Neel自身もGrokking研究を2025年現在行うことを推奨していない

Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 Circuit • 大きいトレンドは~1年くらいで変わる

Circuit (QK-circuit/OV-circuit) • Transformer(self-attention)は，どこを繋ぐかと何を次の層に送るか　の処理に使っている情報が異なる • QK-circuitとOV-circuitと呼ぶ • これを分析することによって，各層で何の情報をもとにトークン同士の接
続を決めて，何に情報を出力に流しているかがわかるどこを繋ぐか何を送るか

Induction Head •QK/OV-circuitの仕組みで，文脈からパターンを引っ張ってくる回路が説明できる（Induction Head) •事前学習コーパスをNext Token Predictionする際にこの回路は頻出なので LLMの内部の至る所にInduction
Headが現れる • 固有名詞などは覚えるよりも文脈から引っ張ってきた方が簡単にNTPが当たる … Harry Potter … Harry … ??? Match Cop y Wang+2022

因果介入ベースの回路発見 • Activation Patching • 異なる入力から得た活性値を貼り付けて，特定のタスクに対する回路を発見する • Bau+2023 「特定の知識に対応する活性値を発見」 •
Steering Vector • 対照的なデータを入力し，活性値を差分をSteering Vectorとする • Arditi+2024 「有害-無害なデータでjailbreakするベクトルを獲得」 Bau+2023

Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 SparseAutoencoder • 大きいトレンドは~1年くらいで変わる

重ね合わせ • 1つニューロンが複数の意味に対応する（多義性） • 分散表現と同じ • これがLLMを解釈しづらくしている主な原因では？ • データのスパース性が高くなると多義的な表現になる •
スパース性=特徴量の出現頻度 • 言語データは画像データよりも特徴量のスパース性が高い ? (画像タスクだとエッジなどの特徴量は頻出だが，言語データに対応するそれはあるか？ )

SAE (重ね合わせをほどく） • 2層のAEを再構成とスパース制約で学習することで解釈可能な空間を作る • 大規模モデルにも適応可能なことからビックテックも研究 • OpenAI, GPT4のSAEの学習と評価
(ICLR’25, oral) • Google, Gemma Scopeを開発 • Anthropic, Claudeの中からゴールデンゲートブリッジSAE特徴量を発見 encode decode SAEの特徴量 ✔ スパースな活性値 ✔ 解釈可能 (単一意味的 ) LLMの活性値 ✔ 密な活性値 ✔ 解釈困難 (多義的)

SAEの今後 • 2025年からはSAEの熱狂は冷めつつある • Heap+2025 「訓練済みモデルとランダムモデルの両方で、SAEによって得られる特徴は驚くほど似ている」 • Paulo+2025 「異なるランダムシードで初期化したSAEを訓練すると、学習される
特徴は大きく異なる」 • SAEが解釈性のメインツールとして使って良いかは懐疑的 • SAEはFeatureの存在は確認できるがモデルの計算に使われるかは不明 • Parameter Decomposition [Lee+2025] • Transcoder [Neel+2024]

Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 ? • 大きいトレンドは~1年くらいで変わる

今後のトレンド • 分野全体として，トイモデル/トイタスクではなくリアルな大規模モデルでの研究の需要が高まっている • Reviewでもトイタスクだけだと「so what?」や実用の示唆を詰められる • トイタスクでコントロールした設定でなければわからないことがあるが，実用との接続を考えながら実験をデザインすることが重要
• Reasoning Model • 長いCoTによって数学タスクが向上するメカニズム，長いCoTは意味があるのか． • Aha moment(メタ認知的挙動)の説明 • Model Diffing • FTによってモデルの何が変わったか？新しい能力/知識が付くのか表面的な変化のみか • SFTとRLだったら内部的には何が異なるのか • Misalignment • 意図しない行動を示すケースのメカニズム解析

大規模言語モデルと機械論的解釈性：その展開と現在地

大規模言語モデルと機械論的解釈性：その展開と現在地

Gouki Minegishi

More Decks by Gouki Minegishi

Other Decks in Research

Featured

Transcript