Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Mechanistic Interpretability の紹介

Avatar for Soh Takahashi Soh Takahashi
April 20, 2024

Mechanistic Interpretability の紹介

神経科学・機械学習に興味があるM1の大学院生がMechanistic Interpretability についてサーベイした結果をまとめたスライドです

Avatar for Soh Takahashi

Soh Takahashi

April 20, 2024
Tweet

Other Decks in Science

Transcript

  1. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  2. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  3. Mechanistic interpretability とは? Neural Network (NN) をリバースエンジニアリングして解釈しようとする分野 1. 解釈対象とする NN

    の behavior (or task) を 決定する 2. NN を計算グラフとして定義 3. 解釈対象の behavior を行うのに必要最低限のサ ブグラフ (circuit) を見つける 4. 見つけた circuit の各ユニットが何をしているの か?を解釈する Indirect object identification task を行う GPT-2 small の circuit 比較的若い分野なので確立された手法があるわけではないがNN の内部に踏み込もうとするのが特徴 OpenAI, Anthropic などの AIスタートアップが主導
  4. 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ

    4. Circuit の内部を解釈 Mech Interp 研究の具体例: Hanna+ 2023 Neurips
  5. 神経科学との関連 • どのニューロン(集団)が何を表象しているのか? • どのようなアルゴリズムで表象されたものが処理されている のか? などの神経科学でも馴染み深い問いを、より実験が容易な neural network に対して分析するような分野

    人間の脳を理解する方向では... • 人間と同じことができる LLM に対して mech interp • 脳活動を模した neural network に対して mech interp などから新たなことがわかるかも? 脳にも使える考え方が出てくるかも?
  6. 目次 • Mechanistic Interpretability とは? ◦ 神経科学との関連 ◦ Mech Interp

    研究の具体例 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  7. Mech Interp 研究における課題 • パラメータの多さ Circuitを手作業で特定しようとするにはNNのパラメータ数があまり にも多い • Polysemanticity(多義性) ニューロンが意味的に異なる複数の文脈で発火する

    (NNを表すグラフのノードをニューロンにしてしまうと、 人間が直観的に理解できる形にならない) • 解釈の方法 Circuit を特定して、その各ユニットをどう解釈するか? 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  8. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  9. パラメータの多さ • 昨今のモデルはパラメータ数が多い • 特定の入力に対する発火パターンを手作業で 確認する、といった方法での circuit の特定は 大規模モデルでは不可能 •

    大規模モデルにも scaling できるような、 circuit の 特定を自動化する手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  10. Automatic Circuit DisCovery (ACDC) Conmy+ 2023 Neurips 1. 出力側から順にエッジを選ぶ 2.

    選ばれたエッジを一時的に切った サブグラフ H newを作る 3. 元のグラフGから得た出力とH new から得た出力の間の KLを計算 4. 現在のサブグラフHとKL が大して 変わらなければ(閾値τを越えなけれ ば)そのエッジは重要ではないので完 全に取り除く 5. 1-4を最後のエッジまで繰り返す Full graph G Current subgraph H New Subgraph H new If 目的: モデルの中でタスクに関連する最小部分 (Circuit) を自動で特定したい τ はハイパラ τ が大きいほど スパースな circuit に
  11. ACDC の問題点 • 閾値のハイパーパラメータ τ にセンシティブ • ACDC を使って得られたサブグラフが正しいのか(特定のタスクを行うため に必要最小限のサブグラフになっているのか)を確かめづらい

    ◦ 論文中では、元のグラフGとのKLと、最終的に得られたサブグラフ Hのエッジ数で評価して いる(少ないエッジ数で元のグラフとの KLが小さいほどよい) 実用上は、ハイパラ τを振って、エッジ 数とKLをモニタリングして、 circuitを特 定することになる
  12. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  13. NNをグラフと見るときノードをどう定義するか? • グラフのノードを polysemantic なニューロン ではなくて、monosemantic な特徴に対応す るものにした方が解釈性が上がる • Polysemanticity

    をほどいて、そもそもどのよ うな特徴が学習されているのか、を 明らかにする手法が必要 →次ページ 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  14. Sparse autoencoders find highly interpreable features Cunningham+ 2023 arXiv •

    入力x: モデルの隠れ層の activation vector • モデルの隠れ次元よりも高次元な1層の sparse autoencoder (SAE) を訓練 • モデルのニューロンが持つ polysemantic な特徴を SAE が decompose することを期待 ◦ autoencoder のスパース性が重要
  15. 目次 • Mechanistic Interpretability とは? ◦ Mech Interp 研究の具体例 ◦

    神経科学との関連 • Mechanistic Interpretability 研究における課題 ◦ パラメータの多さ, Polysemanticity, Cirucit の解釈法 • パラメータの多さへの対応: Automatic Circuit DisCovery (ACDC) • Polysemanticity への対応: Sparse Autoencoder を用いた手法 • Circuit の解釈法
  16. Circuit の各ユニットの解釈手法 特定された circuit(あるタスクに必要な必要最低限なサブグラ フ)の各ユニットが何を表していて、どのような処理がされてい るのか?の解釈手法 • 入力に対する活動パターンを可視化 ◦ attention

    pattern の可視化 ◦ 中間層の活動の un-embedding • Circuit 内への介入による出力の変化を調べる • LLMを複数個使って、LLM にそのニューロンが何をして いるのかをテキストで出力させる方法 Bills+ 2023 など 1. 解釈対象のbehavior選定 2. NNをグラフとして定義 3. Circuit の特定 Mech interp 研究の流れ 4. Circuit の内部を解釈
  17. まとめ • Mechanistic Interpretability は NN をグラフとして見て、特定の タスクに関するサブグラフ (circuit) を見つけて、circuitの中身をリバースエ

    ンジニアリングする分野 • 大規模モデルで circuit を自動で特定する方法: ACDC • Monosemantic なノードを見つける方法: sparse aturoencoder • 解釈手法: 可視化・介入・LLM による説明 など