Slide 1

Slide 1 text

Mechanistic Interpretability の紹介 Soh Takahashi

Slide 2

Slide 2 text

目次 ● Mechanistic Interpretability とは? ○ Mech Interp 研究の具体例 ○ 神経科学との関連 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 3

Slide 3 text

目次 ● Mechanistic Interpretability とは? ○ Mech Interp 研究の具体例 ○ 神経科学との関連 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 4

Slide 4 text

Mechanistic interpretability とは? Neural Network (NN) をリバースエンジニアリングして解釈しようとする分野 1. 解釈対象とする NN の behavior (or task) を 決定する 2. NN を計算グラフとして定義 3. 解釈対象の behavior を行うのに必要最低限のサ ブグラフ (circuit) を見つける 4. 見つけた circuit の各ユニットが何をしているの か?を解釈する Indirect object identification task を行う GPT-2 small の circuit 比較的若い分野なので確立された手法があるわけではないがNN の内部に踏み込もうとするのが特徴 OpenAI, Anthropic などの AIスタートアップが主導

Slide 5

Slide 5 text

1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈 Mech Interp 研究の具体例: Hanna+ 2023 Neurips

Slide 6

Slide 6 text

神経科学との関連 ● どのニューロン(集団)が何を表象しているのか? ● どのようなアルゴリズムで表象されたものが処理されている のか? などの神経科学でも馴染み深い問いを、より実験が容易な neural network に対して分析するような分野 人間の脳を理解する方向では... ● 人間と同じことができる LLM に対して mech interp ● 脳活動を模した neural network に対して mech interp などから新たなことがわかるかも? 脳にも使える考え方が出てくるかも?

Slide 7

Slide 7 text

目次 ● Mechanistic Interpretability とは? ○ 神経科学との関連 ○ Mech Interp 研究の具体例 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 8

Slide 8 text

Mech Interp 研究における課題 ● パラメータの多さ Circuitを手作業で特定しようとするにはNNのパラメータ数があまり にも多い ● Polysemanticity(多義性) ニューロンが意味的に異なる複数の文脈で発火する (NNを表すグラフのノードをニューロンにしてしまうと、 人間が直観的に理解できる形にならない) ● 解釈の方法 Circuit を特定して、その各ユニットをどう解釈するか? 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 9

Slide 9 text

目次 ● Mechanistic Interpretability とは? ○ Mech Interp 研究の具体例 ○ 神経科学との関連 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 10

Slide 10 text

パラメータの多さ ● 昨今のモデルはパラメータ数が多い ● 特定の入力に対する発火パターンを手作業で 確認する、といった方法での circuit の特定は 大規模モデルでは不可能 ● 大規模モデルにも scaling できるような、 circuit の 特定を自動化する手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 11

Slide 11 text

Automatic Circuit DisCovery (ACDC) Conmy+ 2023 Neurips 1. 出力側から順にエッジを選ぶ 2. 選ばれたエッジを一時的に切った サブグラフ H newを作る 3. 元のグラフGから得た出力とH new から得た出力の間の KLを計算 4. 現在のサブグラフHとKL が大して 変わらなければ(閾値τを越えなけれ ば)そのエッジは重要ではないので完 全に取り除く 5. 1-4を最後のエッジまで繰り返す Full graph G Current subgraph H New Subgraph H new If 目的: モデルの中でタスクに関連する最小部分 (Circuit) を自動で特定したい τ はハイパラ τ が大きいほど スパースな circuit に

Slide 12

Slide 12 text

ACDC の問題点 ● 閾値のハイパーパラメータ τ にセンシティブ ● ACDC を使って得られたサブグラフが正しいのか(特定のタスクを行うため に必要最小限のサブグラフになっているのか)を確かめづらい ○ 論文中では、元のグラフGとのKLと、最終的に得られたサブグラフ Hのエッジ数で評価して いる(少ないエッジ数で元のグラフとの KLが小さいほどよい) 実用上は、ハイパラ τを振って、エッジ 数とKLをモニタリングして、 circuitを特 定することになる

Slide 13

Slide 13 text

目次 ● Mechanistic Interpretability とは? ○ Mech Interp 研究の具体例 ○ 神経科学との関連 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 14

Slide 14 text

Polysemanticity 1つのニューロンが全く意味的に異なる複数の入 力に発火する現象→解釈しづらい Superposition あまり登場しないレアな概念を少数のニューロンに圧縮することで、 モデルがレイヤーの次元数より多い特徴量を学習しており、ゆえに polysemanticity が起こっているのではないかという仮説 (Elhage+ 2022) 獲得された表現のスパース性が必要

Slide 15

Slide 15 text

NNをグラフと見るときノードをどう定義するか? ● グラフのノードを polysemantic なニューロン ではなくて、monosemantic な特徴に対応す るものにした方が解釈性が上がる ● Polysemanticity をほどいて、そもそもどのよ うな特徴が学習されているのか、を 明らかにする手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 16

Slide 16 text

Sparse autoencoders find highly interpreable features Cunningham+ 2023 arXiv ● 入力x: モデルの隠れ層の activation vector ● モデルの隠れ次元よりも高次元な1層の sparse autoencoder (SAE) を訓練 ● モデルのニューロンが持つ polysemantic な特徴を SAE が decompose することを期待 ○ autoencoder のスパース性が重要

Slide 17

Slide 17 text

Sparse Autoencoder を使う手法の問題点 SAE の損失が 0 にならない以上、モデルが学習した特徴をSAEで完全に捉え きれていることにはならない →だが、SAEを使う手法はトレンドになっているよう 最近 SAEを使ってcircuitを特定しようという論文の preprint が出ていた Marks+ 2024 https://x.com/saprmarks/status/1775513423402692685

Slide 18

Slide 18 text

目次 ● Mechanistic Interpretability とは? ○ Mech Interp 研究の具体例 ○ 神経科学との関連 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 19

Slide 19 text

Circuit の各ユニットの解釈手法 特定された circuit(あるタスクに必要な必要最低限なサブグラ フ)の各ユニットが何を表していて、どのような処理がされてい るのか?の解釈手法 ● 入力に対する活動パターンを可視化 ○ attention pattern の可視化 ○ 中間層の活動の un-embedding ● Circuit 内への介入による出力の変化を調べる ● LLMを複数個使って、LLM にそのニューロンが何をして いるのかをテキストで出力させる方法 Bills+ 2023 など 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 20

Slide 20 text

まとめ ● Mechanistic Interpretability は NN をグラフとして見て、特定の タスクに関するサブグラフ (circuit) を見つけて、circuitの中身をリバースエ ンジニアリングする分野 ● 大規模モデルで circuit を自動で特定する方法: ACDC ● Monosemantic なノードを見つける方法: sparse aturoencoder ● 解釈手法: 可視化・介入・LLM による説明 など