Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルと機械論的解釈性:その展開と現在地

 大規模言語モデルと機械論的解釈性:その展開と現在地

Avatar for Gouki Minegishi

Gouki Minegishi

March 01, 2026
Tweet

More Decks by Gouki Minegishi

Other Decks in Research

Transcript

  1. 自己紹介 • 学部:東大機械工学 • 修士:東大 松尾・岩澤研 • 修士論文 「特徴量と回路の分析を通じたニューラルネットワークの解釈性に関する研究」 •

    博士:東大 松尾・岩澤研 1年 • 研究 • Grokkingの宝くじ仮説の観点からの分析(TMLR’25), 多項式の分析(TMLR’24) • 多義語を使ったSAEの新たな評価指標の提案(ICLR’25) • 文脈内学習におけるCircuitの学習ダイナミクスの分析(ICML’25) • Reasoning Modelの内部挙動をグラフ理論の観点から分析
  2. 好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法 理論的なアプ ローチ 動物行動学なアプロー チ ICLの仕組みってなんだろう ?

    →実はICLはforward方向の誤差逆伝播 でした(Transformerだと理論的にこれが 可能) [Oswald+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデ ルなど)
  3. 好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法 理論的なアプ ローチ 動物行動学なアプロー チ ICLの仕組みってなんだろう ?

    →実はICLはforward方向の誤差逆伝播 でした(Transformerだと理論的にこれが 可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの 性能が高いです.パラメータ数が重要? [Wei+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデ ルなど)
  4. 好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法 理論的なアプ ローチ 動物行動学なアプロー チ ICLの仕組みってなんだろう ?

    →実はICLはforward方向の誤差逆伝播 でした(Transformerだと理論的にこれが 可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの 性能が高いです.パラメータ数が重要? [Wei+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデ ルなど) Pros: 大きい現実的なモデルで実験でき る Cons: 厳密な理解には遠い
  5. 好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法 理論的なアプ ローチ 動物行動学なアプロー チ ICLの仕組みってなんだろう ?

    →実はICLはforward方向の誤差逆伝播 でした(Transformerだと理論的にこれが 可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの 性能が高いです.パラメータ数が重要? [Wei+2023] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデ ルなど) Pros: 大きい現実的なモデルで実験でき る Cons: 厳密な理解には遠い Mechanistic Interpretability
  6. 好奇心を満たすMechanistic Interpretability https://www.youtube.com/watch?v=yBL7J0kgldU 深層学習モデル(LLM)を理解する方法 理論的なアプ ローチ 動物行動学なアプロー チ ICLの仕組みってなんだろう ?

    →実はICLはforward方向の誤差逆伝播 でした(Transformerだと理論的にこれが 可能) [Oswald+2023] ICLの仕組みってなんだろう ? → パラメータ数の大きいモデルは ICLの 性能が高いです.パラメータ数が重要? [Wei+2023] 大きいモデルにも適応可能. 個人的に一番知能の理解に近づけると 思った (=好奇心を満たしてくれた) Pros: 大きい現実的なモデルで実験でき る Cons: 厳密な理解には遠い Mechanistic Interpretability ICLの仕組みってなんだろう ? →コントロール実験や介入などの神経科 学的アプローチで ICLを実行する必要最 小限の回路を見つけました. [Olsson+2022] Pros: 厳密に理解できる Cons: 仮定が理想的すぎる (小さいモデ ルなど)
  7. ビッグテックとMechanistic Interpretability • Google DeepMind • Neel Nanda率いるチーム • Anthropic

    • Cris Olah率いるチーム • OpenAI • 2024年5月「スーパーアライメントチーム解散」 • o1,o3などの新モデルの評価をApollo Researchに委託
  8. Start-UpとMechanistic Interpretability • Apollo Research • Lee Sharley(SAEの生みの親)など中心に設立 • 現在は解釈性より評価中心に研究

    • Transluce • Jacob Steinhardt(UCB助教)中心に設立 • Goodfire • Mechanistic Interpretabilityの有名な研究者が集まる • シリーズAで5,000万ドル(約73億円)調達 社会的需要とともにお金も集まり始めている
  9. Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 ? CN N

    Grokking, Circuit SparseAutoencoder • 大きいトレンドは~1年くらいで変わる • 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されること が多くキャッチアップが大変
  10. Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 Grokking • 大きいトレンドは~1年くらいで変わる

    • 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されること が多くキャッチアップが大変
  11. Grokking背景 • OpenAIが2022年にTransformerに簡単な算術問題を解かせていたら発見した 現象 • 算術問題: (a+b)%p=c • 過学習(暗記)してしばらく経ってから,急に汎化性能が上がる •

    今まで機械学習の直感に反する(普通過学習したらEarly Stopとかする) 「暗記と汎化の間で何が起こっているのか? 」
 何が起きてる? 暗記 解 汎化 解
  12. モデルをリバースエンジニアリングする • 加算モジュラ演算を行うネットワーク • Embedding: cos/sinに入力をマッピング • Transformer: 加法定理 •

    Unembedding: 答え(c)との類似度をlogitとして計算 • 重要なのは,NNが行っているアルゴリズムを人間が理解できる形にでき たこと • このアルゴリズム自体は数学者ガウスが100年以上前に見つけている • 論文の著者(Neel)もモデルがこのアルゴリズムを実装しているとは思わなかった Neel+2023
  13. Grokkingのその後 • NNの中身がリバースエンジニアリングできるという事実が注目が高まる • ICLR’23(notable-top-25%), Progress measures for grokking via

    mechanistic interpretability • ICLR’23(oral), Omnigrok: Grokking Beyond Algorithmic Data • Neurips’23(oral), The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks • ICML’25(oral), Emergence in non-neural models: grokking modular arithmetic via average gradient outer product • ただ実世界のLLMに対する貢献がわかりづらく最近はあまり研究されて いない • Neel自身もGrokking研究を2025年現在行うことを推奨していない
  14. Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 Circuit • 大きいトレンドは~1年くらいで変わる

    • 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されること が多くキャッチアップが大変
  15. Induction Head •QK/OV-circuitの仕組みで,文脈からパターンを引っ張ってくる回路が説 明できる(Induction Head) •事前学習コーパスをNext Token Predictionする際にこの回路は頻出なの で LLMの内部の至る所にInduction

    Headが現れる • 固有名詞などは覚えるよりも文脈から引っ張ってきた方が簡単にNTPが当たる … Harry Potter … Harry … ??? Match Cop y Wang+2022
  16. 因果介入ベースの回路発見 • Activation Patching • 異なる入力から得た活性値を貼り付けて,特定のタスクに対する回路を発見する • Bau+2023 「特定の知識に対応する活性値を発見」 •

    Steering Vector • 対照的なデータを入力し,活性値を差分をSteering Vectorとする • Arditi+2024 「有害-無害なデータでjailbreakするベクトルを獲得」 Bau+2023
  17. Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 SparseAutoencoder • 大きいトレンドは~1年くらいで変わる

    • 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されること が多くキャッチアップが大変
  18. 重ね合わせ • 1つニューロンが複数の意味に対応する(多義性) • 分散表現と同じ • これがLLMを解釈しづらくしている主な原因では? • データのスパース性が高くなると多義的な表現になる •

    スパース性=特徴量の出現頻度 • 言語データは画像データよりも特徴量のスパース性が高い ? (画像タスクだとエッジなどの 特徴量は頻出だが,言語データに対応するそれはあるか? )
  19. SAE (重ね合わせをほどく) • 2層のAEを再構成とスパース制約で学習することで解釈可能な空間を作 る • 大規模モデルにも適応可能なことからビックテックも研究 • OpenAI, GPT4のSAEの学習と評価

    (ICLR’25, oral) • Google, Gemma Scopeを開発 • Anthropic, Claudeの中からゴールデンゲートブリッジSAE特徴量を発見 encode decode SAEの特徴量 ✔ スパースな活性値 ✔ 解釈可能 (単一意味的 ) LLMの活性値 ✔ 密な活性値 ✔ 解釈困難 (多義的)
  20. SAEの今後 • 2025年からはSAEの熱狂は冷めつつある • Heap+2025 「訓練済みモデルとランダムモデルの両方で、SAEによって得られる 特徴は驚くほど似ている」 • Paulo+2025 「異なるランダムシードで初期化したSAEを訓練すると、学習される

    特徴は大きく異なる」 • SAEが解釈性のメインツールとして使って良いかは懐疑的 • SAEはFeatureの存在は確認できるがモデルの計算に使われるかは不 明 • Parameter Decomposition [Lee+2025] • Transcoder [Neel+2024]
  21. Mechanistic Interpretabilityの歴史と文化 2021 2022 2023 2024 2025 ? • 大きいトレンドは~1年くらいで変わる

    • 小さいトレンドは数ヶ月で変わる • 最先端の研究がblog(transformer threads, lesswrong)で公開されること が多くキャッチアップが大変
  22. 今後のトレンド • 分野全体として,トイモデル/トイタスクではなくリアルな大規模モデルでの研究 の需要が高まっている • Reviewでもトイタスクだけだと「so what?」や実用の示唆を詰められる • トイタスクでコントロールした設定でなければわからないことがあるが,実用との接続を考 えながら実験をデザインすることが重要

    • Reasoning Model • 長いCoTによって数学タスクが向上するメカニズム,長いCoTは意味があるのか. • Aha moment(メタ認知的挙動)の説明 • Model Diffing • FTによってモデルの何が変わったか?新しい能力/知識が付くのか表面的な変化のみか • SFTとRLだったら内部的には何が異なるのか • Misalignment • 意図しない行動を示すケースのメカニズム解析