Mechanistic Interpretability の紹介

Slide 1

Slide 1 text

Mechanistic Interpretability の紹介 Soh Takahashi

Slide 2

Slide 2 text

目次 ● Mechanistic Interpretability とは？ ○ Mech Interp 研究の具体例 ○ 神経科学との関連 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Mechanistic interpretability とは？ Neural Network (NN) をリバースエンジニアリングして解釈しようとする分野 1. 解釈対象とする NN の behavior (or task) を決定する 2. NN を計算グラフとして定義 3. 解釈対象の behavior を行うのに必要最低限のサブグラフ (circuit) を見つける 4. 見つけた circuit の各ユニットが何をしているのか？を解釈する Indirect object identiﬁcation task を行う GPT-2 small の circuit 比較的若い分野なので確立された手法があるわけではないがNN の内部に踏み込もうとするのが特徴 OpenAI, Anthropic などの AIスタートアップが主導

Slide 5

Slide 5 text

1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈 Mech Interp 研究の具体例: Hanna+ 2023 Neurips

Slide 6

Slide 6 text

神経科学との関連 ● どのニューロン（集団）が何を表象しているのか？ ● どのようなアルゴリズムで表象されたものが処理されているのか？などの神経科学でも馴染み深い問いを、より実験が容易な neural network に対して分析するような分野人間の脳を理解する方向では... ● 人間と同じことができる LLM に対して mech interp ● 脳活動を模した neural network に対して mech interp などから新たなことがわかるかも？脳にも使える考え方が出てくるかも？

Slide 7

Slide 7 text

目次 ● Mechanistic Interpretability とは？ ○ 神経科学との関連 ○ Mech Interp 研究の具体例 ● Mechanistic Interpretability 研究における課題 ○ パラメータの多さ, Polysemanticity, Cirucit の解釈法 ● パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) ● Polysemanticity への対応: Sparse Autoencoder を用いた手法 ● Circuit の解釈法

Slide 8

Slide 8 text

Mech Interp 研究における課題 ● パラメータの多さ Circuitを手作業で特定しようとするにはNNのパラメータ数があまりにも多い ● Polysemanticity（多義性）ニューロンが意味的に異なる複数の文脈で発火する（NNを表すグラフのノードをニューロンにしてしまうと、人間が直観的に理解できる形にならない） ● 解釈の方法 Circuit を特定して、その各ユニットをどう解釈するか？ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 9

Slide 9 text

Slide 10

Slide 10 text

パラメータの多さ ● 昨今のモデルはパラメータ数が多い ● 特定の入力に対する発火パターンを手作業で確認する、といった方法での circuit の特定は大規模モデルでは不可能 ● 大規模モデルにも scaling できるような、 circuit の特定を自動化する手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 11

Slide 11 text

Automatic Circuit DisCovery (ACDC) Conmy+ 2023 Neurips 1. 出力側から順にエッジを選ぶ 2. 選ばれたエッジを一時的に切ったサブグラフ H newを作る 3. 元のグラフGから得た出力とH new から得た出力の間の KLを計算 4. 現在のサブグラフHとKL が大して変わらなければ（閾値τを越えなければ）そのエッジは重要ではないので完全に取り除く 5. 1-4を最後のエッジまで繰り返す Full graph G Current subgraph H New Subgraph H new If 目的: モデルの中でタスクに関連する最小部分 (Circuit) を自動で特定したい τ はハイパラ τ が大きいほどスパースな circuit に

Slide 12

Slide 12 text

ACDC の問題点 ● 閾値のハイパーパラメータ τ にセンシティブ ● ACDC を使って得られたサブグラフが正しいのか（特定のタスクを行うために必要最小限のサブグラフになっているのか）を確かめづらい ○ 論文中では、元のグラフGとのKLと、最終的に得られたサブグラフ Hのエッジ数で評価している（少ないエッジ数で元のグラフとの KLが小さいほどよい）実用上は、ハイパラ τを振って、エッジ数とKLをモニタリングして、 circuitを特定することになる

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Polysemanticity 1つのニューロンが全く意味的に異なる複数の入力に発火する現象→解釈しづらい Superposition あまり登場しないレアな概念を少数のニューロンに圧縮することで、モデルがレイヤーの次元数より多い特徴量を学習しており、ゆえに polysemanticity が起こっているのではないかという仮説 (Elhage+ 2022) 獲得された表現のスパース性が必要

Slide 15

Slide 15 text

NNをグラフと見るときノードをどう定義するか？ ● グラフのノードを polysemantic なニューロンではなくて、monosemantic な特徴に対応するものにした方が解釈性が上がる ● Polysemanticity をほどいて、そもそもどのような特徴が学習されているのか、を明らかにする手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 16

Slide 16 text

Sparse autoencoders ﬁnd highly interpreable features Cunningham+ 2023 arXiv ● 入力x: モデルの隠れ層の activation vector ● モデルの隠れ次元よりも高次元な1層の sparse autoencoder (SAE) を訓練 ● モデルのニューロンが持つ polysemantic な特徴を SAE が decompose することを期待 ○ autoencoder のスパース性が重要

Slide 17

Slide 17 text

Sparse Autoencoder を使う手法の問題点 SAE の損失が 0 にならない以上、モデルが学習した特徴をSAEで完全に捉えきれていることにはならない →だが、SAEを使う手法はトレンドになっているよう最近 SAEを使ってcircuitを特定しようという論文の preprint が出ていた Marks+ 2024 https://x.com/saprmarks/status/1775513423402692685

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Circuit の各ユニットの解釈手法特定された circuit（あるタスクに必要な必要最低限なサブグラフ）の各ユニットが何を表していて、どのような処理がされているのか？の解釈手法 ● 入力に対する活動パターンを可視化 ○ attention pattern の可視化 ○ 中間層の活動の un-embedding ● Circuit 内への介入による出力の変化を調べる ● LLMを複数個使って、LLM にそのニューロンが何をしているのかをテキストで出力させる方法 Bills+ 2023 など 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈

Slide 20

Slide 20 text

まとめ ● Mechanistic Interpretability は NN をグラフとして見て、特定のタスクに関するサブグラフ (circuit) を見つけて、circuitの中身をリバースエンジニアリングする分野 ● 大規模モデルで circuit を自動で特定する方法: ACDC ● Monosemantic なノードを見つける方法: sparse aturoencoder ● 解釈手法: 可視化・介入・LLM による説明など