Mechanistic Interpretability の紹介

Mechanistic Interpretability の紹介 Soh Takahashi

目次 • Mechanistic Interpretability とは？ ◦ Mech Interp 研究の具体例 ◦
神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法

Mechanistic interpretability とは？ Neural Network (NN) をリバースエンジニアリングして解釈しようとする分野 1. 解釈対象とする NN
の behavior (or task) を決定する 2. NN を計算グラフとして定義 3. 解釈対象の behavior を行うのに必要最低限のサブグラフ (circuit) を見つける 4. 見つけた circuit の各ユニットが何をしているのか？を解釈する Indirect object identiﬁcation task を行う GPT-2 small の circuit 比較的若い分野なので確立された手法があるわけではないがNN の内部に踏み込もうとするのが特徴 OpenAI, Anthropic などの AIスタートアップが主導

1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ
4. Circuit の内部を解釈 Mech Interp 研究の具体例: Hanna+ 2023 Neurips

神経科学との関連 • どのニューロン（集団）が何を表象しているのか？ • どのようなアルゴリズムで表象されたものが処理されているのか？などの神経科学でも馴染み深い問いを、より実験が容易な neural network に対して分析するような分野
人間の脳を理解する方向では... • 人間と同じことができる LLM に対して mech interp • 脳活動を模した neural network に対して mech interp などから新たなことがわかるかも？脳にも使える考え方が出てくるかも？

目次 • Mechanistic Interpretability とは？ ◦ 神経科学との関連 ◦ Mech Interp
研究の具体例 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法

Mech Interp 研究における課題 • パラメータの多さ Circuitを手作業で特定しようとするにはNNのパラメータ数があまりにも多い • Polysemanticity（多義性）ニューロンが意味的に異なる複数の文脈で発火する
（NNを表すグラフのノードをニューロンにしてしまうと、人間が直観的に理解できる形にならない） • 解釈の方法 Circuit を特定して、その各ユニットをどう解釈するか？ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

パラメータの多さ • 昨今のモデルはパラメータ数が多い • 特定の入力に対する発火パターンを手作業で確認する、といった方法での circuit の特定は大規模モデルでは不可能 •
大規模モデルにも scaling できるような、 circuit の特定を自動化する手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Automatic Circuit DisCovery (ACDC) Conmy+ 2023 Neurips 1. 出力側から順にエッジを選ぶ 2.
選ばれたエッジを一時的に切ったサブグラフ H newを作る 3. 元のグラフGから得た出力とH new から得た出力の間の KLを計算 4. 現在のサブグラフHとKL が大して変わらなければ（閾値τを越えなければ）そのエッジは重要ではないので完全に取り除く 5. 1-4を最後のエッジまで繰り返す Full graph G Current subgraph H New Subgraph H new If 目的: モデルの中でタスクに関連する最小部分 (Circuit) を自動で特定したい τ はハイパラ τ が大きいほどスパースな circuit に

ACDC の問題点 • 閾値のハイパーパラメータ τ にセンシティブ • ACDC を使って得られたサブグラフが正しいのか（特定のタスクを行うために必要最小限のサブグラフになっているのか）を確かめづらい
◦ 論文中では、元のグラフGとのKLと、最終的に得られたサブグラフ Hのエッジ数で評価している（少ないエッジ数で元のグラフとの KLが小さいほどよい）実用上は、ハイパラ τを振って、エッジ数とKLをモニタリングして、 circuitを特定することになる

Polysemanticity 1つのニューロンが全く意味的に異なる複数の入力に発火する現象→解釈しづらい Superposition あまり登場しないレアな概念を少数のニューロンに圧縮することで、モデルがレイヤーの次元数より多い特徴量を学習しており、ゆえに polysemanticity が起こっているのではないかという仮説 (Elhage+ 2022)
獲得された表現のスパース性が必要

NNをグラフと見るときノードをどう定義するか？ • グラフのノードを polysemantic なニューロンではなくて、monosemantic な特徴に対応するものにした方が解釈性が上がる • Polysemanticity
をほどいて、そもそもどのような特徴が学習されているのか、を明らかにする手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Sparse autoencoders ﬁnd highly interpreable features Cunningham+ 2023 arXiv •
入力x: モデルの隠れ層の activation vector • モデルの隠れ次元よりも高次元な1層の sparse autoencoder (SAE) を訓練 • モデルのニューロンが持つ polysemantic な特徴を SAE が decompose することを期待 ◦ autoencoder のスパース性が重要

Sparse Autoencoder を使う手法の問題点 SAE の損失が 0 にならない以上、モデルが学習した特徴をSAEで完全に捉えきれていることにはならない →だが、SAEを使う手法はトレンドになっているよう最近
SAEを使ってcircuitを特定しようという論文の preprint が出ていた Marks+ 2024 https://x.com/saprmarks/status/1775513423402692685

Circuit の各ユニットの解釈手法特定された circuit（あるタスクに必要な必要最低限なサブグラフ）の各ユニットが何を表していて、どのような処理がされているのか？の解釈手法 • 入力に対する活動パターンを可視化 ◦ attention
pattern の可視化 ◦ 中間層の活動の un-embedding • Circuit 内への介入による出力の変化を調べる • LLMを複数個使って、LLM にそのニューロンが何をしているのかをテキストで出力させる方法 Bills+ 2023 など 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

まとめ • Mechanistic Interpretability は NN をグラフとして見て、特定のタスクに関するサブグラフ (circuit) を見つけて、circuitの中身をリバースエ
ンジニアリングする分野 • 大規模モデルで circuit を自動で特定する方法: ACDC • Monosemantic なノードを見つける方法: sparse aturoencoder • 解釈手法: 可視化・介入・LLM による説明など

Mechanistic Interpretability の紹介

Mechanistic Interpretability の紹介

Soh Takahashi

Other Decks in Science

Featured

Transcript

Mechanistic Interpretability の紹介 Soh Takahashi

目次 • Mechanistic Interpretability とは？ ◦ Mech Interp 研究の具体例 ◦

目次 • Mechanistic Interpretability とは？ ◦ Mech Interp 研究の具体例 ◦

Mechanistic interpretability とは？ Neural Network (NN) をリバースエンジニアリングして解釈しようとする分野 1. 解釈対象とする NN

1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ

目次 • Mechanistic Interpretability とは？ ◦ 神経科学との関連 ◦ Mech Interp

Mech Interp 研究における課題 • パラメータの多さ Circuitを手作業で特定しようとするにはNNのパラメータ数があまりにも多い • Polysemanticity（多義性）ニューロンが意味的に異なる複数の文脈で発火する

目次 • Mechanistic Interpretability とは？ ◦ Mech Interp 研究の具体例 ◦

パラメータの多さ • 昨今のモデルはパラメータ数が多い • 特定の入力に対する発火パターンを手作業で確認する、といった方法での circuit の特定は大規模モデルでは不可能 •

Automatic Circuit DisCovery (ACDC) Conmy+ 2023 Neurips 1. 出力側から順にエッジを選ぶ 2.

ACDC の問題点 • 閾値のハイパーパラメータ τ にセンシティブ • ACDC を使って得られたサブグラフが正しいのか（特定のタスクを行うために必要最小限のサブグラフになっているのか）を確かめづらい

目次 • Mechanistic Interpretability とは？ ◦ Mech Interp 研究の具体例 ◦

NNをグラフと見るときノードをどう定義するか？ • グラフのノードを polysemantic なニューロンではなくて、monosemantic な特徴に対応するものにした方が解釈性が上がる • Polysemanticity

Sparse autoencoders ﬁnd highly interpreable features Cunningham+ 2023 arXiv •

Sparse Autoencoder を使う手法の問題点 SAE の損失が 0 にならない以上、モデルが学習した特徴をSAEで完全に捉えきれていることにはならない →だが、SAEを使う手法はトレンドになっているよう最近

目次 • Mechanistic Interpretability とは？ ◦ Mech Interp 研究の具体例 ◦

まとめ • Mechanistic Interpretability は NN をグラフとして見て、特定のタスクに関するサブグラフ (circuit) を見つけて、circuitの中身をリバースエ