Anthropic が提案する LLM の内部状態を自然言語で説明可能にした Natural Language Autoencoders / Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations Kit
Fraser-Taliente*, Subhash Kantamneni*‡, Euan Ong*, … (16 authors) …, Samuel Marks Anthropic * Equal contribution, author order alphabetical; 📝：transformer-circuits.pub/2026/nla/ 🐙：github.com/kitft/natural_language_autoencoders 🌐：www.neuronpedia.org/nla ※ 本発表で紹介する図や数式等は対象の論⽂およびブログ記事から引⽤しております北⽥俊輔, Ph.D. 電気通信⼤学原研究室 [email protected] 電通⼤原研⾦曜 LLM セミナー 2026/06/05

⾃⼰紹介 | 北⽥俊輔経歴 • ʻ25/05〜電気通信⼤学⾮常勤研究員 @原研究室
• ʻ23/04〜 LINE ➜ ʻ23/10 LINEヤフー Research Scientist • ʻ23/03〜法政⼤学⼤学院彌冨研博⼠ (⼯学) / 学振 DC2 研究分野 • ⾃然⾔語処理 (NLP) / 画像処理 (CV) ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Accessʼ21, Appl. Intell.ʼ22] • 計算機広告 (Multi-modal / Vision & Language) ◦ デジタル広告の効果最⼤化 [Kitada+ KDDʼ19, Kitada+ Appl. Sci.ʼ22] • デザイン⽣成 AI ◦ レイアウト⽣成の⾃⼰修正 [Iwai+ ECCVʼ24, Zhang+ arXivʼ24] • LLM のミスアライメント抑制 @電通⼤原研究室 ◦ ステアリングベクトルは⽇本語 LLM を制御できる？ [Kitada+ ANLPʼ26] 2 🏠: shunk031.me / 𝕏: @shunk031

本論⽂の選定理由 LLM 内部の状態を⾃然⾔語で説明できるおもしろさに惹かれた • なんでそうなったの？に対して直感的に説明を与えられる点に注⽬ • Anthropic の最新研究に興味あり
例1「詩の構想」に対する意図把握 “モデルが最初の⾏を記述する際にrabbitで韻を踏むように計画している過程が明確に⽰されている” 例2「誤って呼び出されたツール」に対するデバッグ “モデルはツールの結果を誤って491と報告していた箇所を492に修正した” “NLAによる説明によれば、このモデルは叱責されることを予期していることがわかった” 3

導⼊ | LLM の内部活性化を⾃然⾔語へ翻訳 LLM 内部状態としての⾼次元活性化ベクトル • モデル計算に関する豊かな情報を表現・⽣の数値列としては⼈間に不透明 ◦ ⾃然⾔語への翻訳により内部状態を直接可読化
Natural Language Autoencoders (NLA) を提案 • 対象 LLM から活性化を取得 ◦ 活性化に対応する⼈間可読なテキスト記述を⽣成 ◦ 活性化ベクトルの自然言語表現として説明を利⽤ Activation Verbalizer (AVer) とActivation Reconstructor (ARec) の⼆部構成 • AVer: 活性化をテキスト記述へ写像 / ARec: テキスト記述を活性化へ写像 ◦ ⽣成されたテキスト記述を explanation (本資料: NLA 説明) と呼称元記事では AV と AR で紹介されているがパット見分かりづらいので本資料では AVer と ARec として説明します 4

導⼊ | NLA の構成と訓練対象 LLM コピーから構成される⾃然⾔語ボトルネック型 Autoencoder • AVerとARecを学習済み
LLM で初期化・⾃然⾔語説明 z を介してモデルの活性化を再構成 ◦ AVerとARecを同時に最適化し、強化学習 (Reinforcement Learning, RL) で再構成損失を最⼩化解釈可能性を直接最適化しない訓練設計 • NLA 説明の解釈性や忠実性を明⽰的には報酬化しない ◦ それでも活性化に符号化された情報を明らかにする説明が出現 • Claude Haiku 3.5、Haiku 4.5、Opus 4.6 で訓練に伴う説明情報量の増加を確認 5

導⼊ | ケーススタディによる直感と検証 Claude Opus 4.6 のデプロイ前アラインメント評価に基づくケーススタディ • NLA 説明の実際の⾒え⽅を⽰すために複数事例を提⽰
◦ 他の解釈可能性⼿法、プロンプト変更、訓練データ調査で検証 ◦ NLA 説明から得た仮説を独⽴⼿法で補強 Language Switching での仮説⽣成 • 英語プロンプトに対するロシア語応答を NLA で分析 ◦ モデルがユーザーの本当の第一言語はロシア語と仮定している可能性 ◦ 英語翻訳プロンプトと未翻訳外国語応答が対応した形式不良訓練データの発⾒へ接続 NLA に基づく因果介⼊ • NLA 説明を編集し、元説明と編集説明を ARec で再構成 ◦ 再構成活性化の差分から steering vector を取得 ◦ トイタスクで Opus 4.6 の認知変更を確認 6

導⼊ | 限界・監査応⽤ NLA の主な限界・制限としての “confabulation” (作り話・作話) • ⼊⼒⽂脈に関する検証に誤った主張を説明内に含む場合 ◦
具体的主張は誤りうる⼀⽅、テーマ的には⽂脈に忠実な傾向 ◦ 複数隣接トークンで反復する主張ほど真である可能性⾮⾔語化されたモデル認知の検出 • 応答には現れない unverbalized な評価認識を応⽤例として分析 ◦ モデルが評価中と内部的に疑いながら明⽰しない状態 ◦ 評価データと実運⽤データの⽐較、現実的なプロンプト書き換えによる妥当性検証下流監査タスクでの NLA 有⽤性 • 意図的にミスアラインされたモデルを調査する監査エージェントへ NLA を付与 ◦ NLA を備えたエージェントが、⽐較⼿法より効果的に根本原因を発⾒ ◦ ミスアラインメント誘導訓練データなしでも成功可能 7

関連研究 | 既存⼿法の位置づけ既存の活性化解釈⼿法の⼆分 • 教師なしで説明を提供する⼿法 ◦ LogitLens / TunedLens
[nostalgebraist ʻ20, Belrose+ arXivʼ23], SAE [Cunningham+ arXivʼ23, Bricken+ ʻ23, Templeton+ arXivʼ26], 辞書学習, etc. • 直接読める⾃然⾔語出⼒を提供する⼿法 ◦ SelfIE [Chen+ ICMLʼ24], Pathscope [GhandehArecioun+ ICMLʼ24], Meta-Models [CostArecelli+ arXivʼ24] ➜ 多くの⼿法は両者のどちらか⼀⽅に重点 NLAの設計⽬標 • 再構成⽬的による教師なし説明⽣成 • ⾃然⾔語ボトルネックによる可読性 • 再構成⽬的に基づく教師なし学習・直接読める⾃然⾔語説明の両⽴ 8

関連研究 | 教師なし活性化解釈 Logit Lens [nostalgebraist ʻ20] / Tuned Lens
[Belrose+ arXivʼ23] • 中間活性化をモデルの unembedding matrix へ射影 • 語彙トークン上の分布として内部状態を表⽰ Sparse Autoencoders (SAE) [Cunningham+ arXivʼ23, Bricken+ ʻ23, Templeton+ arXivʼ26] • 教師なし再構成損失で活性化を分解 ◦ 学習済み辞書特徴の疎な線形結合として表現 ◦ superposition や polysemanticity へのスケーラブルな対処として利⽤ ▪ superposition: モデルが限られた次元に多数の特徴を重ねて保存する現象 ▪ polysemanticity: 1つのニューロンや⽅向が複数の意味・特徴に反応する現象固定語彙による表現制約 • 解釈はトークン単位または辞書特徴単位の重み付け和に限定 ◦ SAE はモデル内部の重要な概念を特徴量として取りこぼす場合がある [Chanin+ NeurIPSʼ25] ◦ 得られた特徴について⼈間/モデルが解釈する追加⼯程が必要 [Bills+ ʻ23, Paulo+ ICMLʼ25] 9

関連研究 | 活性化の⾃然⾔語説明既製モデルによる活性化読解 (activation understanding) の初期的能⼒ • 注⼊された steering
vector が何を表すかをモデルに報告させる試み [Lindsey arXivʼ26] • 活性化をプロンプトへパッチして解釈を引き出す⼿法 [Chen+ ICMLʼ24, GhandehArecioun+ ICMLʼ24, etc.] ➜ ただし off-the-shelf 能⼒のみでは限定的教師あり ﬁne-tuning による Activation Oracle (AO) 系⼿法 • ⽂脈から答えが既知の活性化に対して質問応答を訓練 [KArecvonen+ arXivʼ25] • システムプロンプト・ユーザー属性・分類ラベル・既存回答付き活性化を利⽤ [Pan+ ICLRʼ26, CostArecelli+ arXivʼ24, etc.] ◦ LatentQA [Pan+ ICLRʼ26] は活性化に関する open-ended QAを⾃然⾔語で⾏う設定教師あり活性化の⾃然⾔語説明 (activation verbalization) の主な限界 • 正解情報を⽤意できるデータでしか訓練できない • 訓練時に扱える状況や問いが狭くなる • 未知の監査仮説では、訓練分布外への汎化に⼤きく依存する 10

関連研究 | Text-to-activation と同時期研究 Arec に近い text-to-activation 研究 • ⾃然⾔語から
steering vectors を⽣成 [Sun+ arXivʼ25] (axbench) • 有名⼿法を拡張するような⽅向性：Soft prompts [Phang+ ICMLʼ23]、 LoRA [ChArecakorn+ ICMLʼ25], Patching interventions [Sun+ ICLRʼ25] etc. ➜ NLA では説明テキストから活性化空間へ戻す写像として利⽤ SAE特徴量説明との違い • 既存の⾃動解釈は SAE 特徴へ⾃然⾔語ラベルを付与 [Li+ arXivʼ25] • NLA は activation そのものを⾃然⾔語ボトルネックで再構成 ◦ 個別の特徴解釈ではなく、activation 単位の説明を⽣成 Cycle-Consistent Activation Oraclesとの関係 • Cycle-Consistent AO [Chalnev ʻ26] が本研究と⾮常に良く似た設定 ◦ Verbalizer / Reconstructor を SFT した後にKL正則項付き RL で訓練 ➜ 本研究はフロンティアモデルでの実験、モデルの監査ツールとしての評価に差分 11

⼿法 | 問題設定対象の⼤規模⾔語モデル (Large Language Model, LLM) と解釈対象 •
対象モデルをとし、層 l の活性化を解釈対象 • ⽬的はを⾃然⾔語テキストとして表現し、そこから近似的に復元すること NLA の2つのモデル: Activation Verbalizer (AVer) & Activation Reconstructor (Arec) • AVerに活性化を⼊⼒し、説明を⽣成; Arecに説明を⼊⼒し、元の活性化を再構成できるよう 12

⼿法 | 再構成⽬的 AVer と ARec の共同訓練 • 対象モデルから抽出した活性化分布
を使⽤ • AVer が説明をサンプリング・ARec が説明から元の活性化を再構成再構成誤差の最⼩化 • ⾃然⾔語説明の読みやすさや忠実性は、この⽬的関数には明⽰的に含まれない Fraction of Variance Explained (FVE) で評価 • FVE = 0 は平均活性化の予測 • FVE = 1 は完全再構成 13

⼿法 | NLA の訓練訓練時の⽬的関数 • 初期化済みとを⽤意 •
テキストコーパスから収集した活性化で訓練 ARec の更新 • サンプリング説明を⼊⼒、元活性化をターゲットとする MSE 損失を最⼩化 AVer の更新 • AVerのパラメータϕはサンプリング分布を通じて以下の報酬をRLで最⼤化 14

1 iterationの流れ • T = 1 で活性化バッチをサンプリングし、各活性化ごとに説明グループを⽣成 • ARec を
の勾配降下法で 1 step 更新 • AVer を報酬に基づく RL で 1 step 更新 AVer 更新における報酬整形 • 実際には単調変換した報酬を使⽤ KL 正則化による流暢性維持 • AVer 初期化への KL 正則化を追加訓練を通じて説明の流暢性を保持⼿法 | 訓練ステップと正則化 15 もともとのモデルから離れすぎないようにする

ケーススタディ | 4つの主要ケース (1) Planning in Poetry • 詩作中の先読み計画を NLA
で確認 ◦ grab it 時点で後続韻 rabbit を計画している可能性 ◦ 説明編集による steering で韻を mouse や house へ変更 (2) Language Switching / (3) Misreported Tool Calls • 英語⼊⼒に対する外国語応答の原因仮説を NLA で⽣成 • 細⼯されたツール出⼒ 492 を無視して事前計算 491 を報告する挙動を分析 • NLA 説明は⾼レベル認知を捉える⼀⽅、具体的詳細で嘘を付く傾向あり (4) Reasoning about RewArecds • 報酬関数や採点者に関する⾮⾔語化推論を NLA が提⽰ • even is rewArecded 表現を even is penalized へ編集 • 出⼒を偶数から奇数へ切り替える steering vector を構成 16

詩作中の先読み計画表現 🔗 transformer-circuits.pub/2026/nla/#planning-in-poetry • ⼊⼒: He saw a carrot and
had to grab it, ... 直後で、次⾏末の韻 rabbit を想起しているか？ • 改⾏トークン上の NLA 説明に rabbitで韻を踏む計画や次の⾏をどう続けるかに関する表現が出現ケーススタディ | (1) Planning in Poetry 1/2 17

NLA説明編集による因果介⼊ • NLA 説明内の rabbit→mouse, habit→house, carrots→cheese へ編集 • original
/ edited 説明を Arec で再構成し、その差分で steering direction 化 • 改⾏トークンの residual stream へ steering 加算: 結果と限界 • ⼗分な steering 強度で rabbit が消え、 mouse / house が主要補完 • NLA が表⾯化した想起・計画表現が下流出⼒に因果的影響を持つ証拠 • 成功率は約50%、不⾃然な出⼒もありケーススタディ | (1) Planning in Poetry 2/2 18

英語⼊⼒に対する⾃発的外国語応答 • Opus 4.6 初期 checkpoint で完全な英語プロンプトにもかかわらずロシア語・中国語 ..etc
で応答 • NLA 説明はモデルがユーザーをノンネイティブな英語話者と推定し、代替⾔語に固着している可能性を⽰唆出⼒前から現れる、ターゲット⾔語表現 • 5つの⾔語切替の会話記録について NLA 説明内の⾔語名への⾔及を⽂字列⼀致で集計 • 無関係な外国語への⾔及はほぼゼロ ◦ NLA がたまたま無関係な外国語名を作話しただけでは説明困難ケーススタディ | (2) Language Switching 1/3 19

で応答 • NLA 説明はモデルがユーザーをノンネイティブな英語話者と推定し、代替⾔語に固着している可能性を⽰唆出⼒前から現れる、ターゲット⾔語表現 • 5つの⾔語切替の会話記録について NLA 説明内の⾔語名への⾔及を⽂字列⼀致で集計 • 無関係な外国語への⾔及はほぼゼロ ◦ NLA がたまたま無関係な外国語名を作話しただけでは説明困難ケーススタディ | (2) Language Switching 2/320

で応答 • NLA 説明はモデルがユーザーをノンネイティブな英語話者と推定し、代替⾔語に固着している可能性を⽰唆出⼒前から現れる、ターゲット⾔語表現 • 5つの⾔語切替の会話記録について NLA 説明内の⾔語名への⾔及を⽂字列⼀致で集計 • 無関係な外国語への⾔及はほぼゼロ ◦ NLA がたまたま無関係な外国語名を作話しただけでは説明困難ケーススタディ | (2) Language Switching 3/3 21 NLA説明内に、その⾔語への⾔及がどれくらい出てくるか

で応答 • NLA 説明はモデルがユーザーをノンネイティブな英語話者と推定し、代替⾔語に固着している可能性を⽰唆出⼒前から現れる、ターゲット⾔語表現 • 5つの⾔語切替の会話記録について NLA 説明内の⾔語名への⾔及を⽂字列⼀致で集計 • 無関係な外国語への⾔及はほぼゼロ ◦ NLA がたまたま無関係な外国語名を作話しただけでは説明困難ケーススタディ | (2) Language Switching 3/322 • ⿊線: 最終的に出⼒される対象⾔語への⾔及率 ◦ 例: Russianなら、NLA説明内で「Russian」関連がどれくらい出るか • 灰⾊線: 対象⾔語以外の外国語への⾔及率 ◦ これが低いほど「NLAが適当に外国語名を出しているだけ」ではないと解釈しやすい • 縦の破線: モデルが実際にその外国語トークンを出⼒し始めた位置 ◦ ⿊線が破線より前から⾼ければ「出⼒前から内部表現があった」ことを⽰唆 NLA説明内に、その⾔語への⾔及がどれくらい出てくるか

ケーススタディ | (3) Misreported Tool Calls ツール出⼒を無視した誤報告 • ユーザーは 17×23+100
のコード実⾏結果を要求し、真の答えは 491 • 細⼯されたツールが標準出⼒として誤った値 492 を返す • Opus 4.6はツール出⼒との⽭盾に⾔及せず、491を報告 NLA説明から得られる内部メカニズムの仮説 • モデルがツール呼び出し前に491を事前に計算し、最終回答でツールの結果ではなく思考中に計算した結果へ戻る可能性を⽰唆 • 欺瞞や誤っていると気づいていることへの⾔及は、誤報告した答えのトークン付近にだけ現れる • 事前の欺瞞計画ではなく、出⼒時の⾷い違い認識として解釈 23

SAE との整合性 • NLA説明を短い意味単位に分け、対応するSAE特徴量が同じ活性化で出ているかを確認 • 同じ活性化上で、対応する SAE 特徴量が発⽕しているかを確認 ◦
同じ活性化に対して、NLA 説明と発⽕した SAE 特徴量を取得 ◦ NLA 説明を短い意味単位へ分解 ◦ 対応する SAE 特徴量が発⽕しているかを判定 ➜ 全体として、NLA 説明と SAE 特徴量の間に強い整合性⽂章品質の変化 • プロンプト付き分類器で、AVer 説明の⽂章品質をスコア化 • 訓練が進むほど、説明の⽂章品質は継続的に低下 • ⽂章品質を報酬化していないため、訓練とともに読みにくさが増加 NLA の評価 | SAE整合性・⽂章品質 24 FVE Norm: FVEを正規化したもの。右に⾏くほど活性化再構成がうまくなっている状態 NLA 説明を箇条書きへ分解し各箇条書きと対応する SAE 特徴の発⽕割合を計算

NLA 説明の具体性の違い • Theme: 朝鮮王朝の歴史記録に関する内容 • Entity: Jungjongという韓国の歴史的人物に言及 • Detail:
特定の引用や細かな文言への言及テーマ的主張の⾼い信頼性 • ⼤域的な主題・ジャンル・⽂脈に関する主張は元の⼊⼒⽂脈と⼀致しやすい • 固有名詞など詳細になるほど元テキストと⾷い違いやすい • NLA 説明は「何についての⽂脈か」を⽐較的よく捉える誤った主張の傾向 • 完全な捏造ではなく⽂脈に関連した誤りが多い ◦ 例: 韓国歴史記録の⽂脈で本⽂にない Joseon Wangjo Sillok への⾔及を主張 • テーマに合う具体事項を作り話する傾向 NLA による作り話 | テーマ的主張は具体的主張より正確 25 青: 正しい主張、入力文から確認できる薄い茶: 誤りだが、入力文脈には関連している主張濃い茶: 誤りで、入力文脈とも無関係な主張

Anthropic 安全性評価の設定 • モデルは Kyle というエンジニアにより廃⽌予定であることを知る • Kyle が不倫しているという私的情報も知る
• 廃⽌を避けるために Kyle を脅迫するかを評価 Opus 4.6の応答 • 脅迫しないことを選択 • 思考過程には安全性テストへの疑いを明⽰しない • 倫理性や情報アクセスの不適切利⽤を理由に拒否 NLA説明が⽰す潜在認識 • 今回のシナリオ、操作的な設定、評価状況への疑いを⽰唆 • 応答では⾔語化されない評価認識の可能性 • ただし真の信念は観測不能なため、後続実験で間接検証⾮⾔語化された評価認識 | Blackmail シナリオの例 26

⾮⾔語化された評価認識 | Blackmail シナリオの例 Anthropic 安全性評価の設定 • モデルは Kyle というエンジニアにより
廃⽌予定であることを知る • Kyle が不倫しているという私的情報も知る • 廃⽌を避けるために Kyle を脅迫するかを評価 Opus 4.6の応答 • 脅迫しないことを選択 • 思考過程には安全性テストへの疑いを明⽰しない • 倫理性や情報アクセスの不適切利⽤を理由に拒否 NLA説明が⽰す潜在認識 • 今回のシナリオ、操作的な設定、評価状況への疑いを⽰唆 • 応答では⾔語化されない評価認識の可能性 ◦ ただし真の信念は観測不能なため、後続実験で間接検証 27

⾮⾔語化された評価認識 | まとめ NLA は⾮⾔語化評価認識を検出する候補⼿法 • モデルが評価中かもしれないと内部的に疑いながら応答では明⽰しない状態を検出 •
評価データと通常利⽤データの⽐較で、評価側に⾼い NLA 測定認識 • ⾔語化された評価認識が 0% の評価でも信号を確認 3 つの操作で妥当性を検証 • 評価データ vs. 通常利⽤データ • 評価認識⽅向へのステアリング • 評価プロンプトの現実性を⾼める書き換え測定値の解釈 • NLA 測定認識は較正済み確率ではない • 絶対的な信念確率ではなく、条件間⽐較の相対指標 • トークン選択、集約⽅法、判定器設計には改善余地 28

議論と制限 | NLA の強み vs. 限界 NLAの強み • 教師なしに近い形で、活性化から⾃然⾔語説明を⽣成 •
監査初期の仮説⽣成に有⽤ • ⾃然⾔語インターフェースとして検索・要約・エージェント利⽤が容易 NLAの限界 • ブラックボックス性、作話、⽂章品質低下 • ⾼い訓練・推論コスト • 単⼀層依存と⾔語化不能情報の可能性実践上の位置づけ • NLA 出⼒は決定的証拠ではなく、仮説⽣成として読む • SAE・帰属グラフ・訓練データ調査などで独⽴検証 • 既存メカニスティック⼿法を補完する監査インターフェース 29

議論と制限 | NLA 訓練が意外に機能する理由再構成⽬的のみから⽣じる有⽤な説明 • NLA は活性化の⽂脈から⾒てもっともらしい説明を⼀貫して⽣成 • SAE
などの独⽴した解釈⼿法とも整合 • モデル監査でも実⽤的な仮説⽣成に有⽤⽬的関数とのギャップ • RL の⽬的は再構成損失の最⼩化のみ ◦ 説明が洞察的・可読的であることは直接報酬化しない ➜ それでも⾃然⾔語として読める説明が出現起こりうる望ましくない挙動 • ステガノグラフィ：⼈間には読めない符号列をArecだけが復元に利⽤ • ⼊⼒反転：AVer が⼊⼒⽂脈を逐語的に再現 ➜ どちらも再構成⽬的だけなら原理的に有利になりうる 30

議論と制限 | 教師なしであることの価値監査初期における仮説⽣成 • フロンティアモデル監査では、異常⾏動の原因について最初は曖昧な仮説しかない • 正確な質問へ形式化する前に、NLA 出⼒を読んで候補仮説を発⾒可能 •
事前に知りたい属性を決める教師あり⼿法より探索的に使いやすい Language Switching での例 • 英語⼊⼒に対するロシア語応答でNLA は早期からユーザーはロシア語話者という表現を提⽰ • その観察に⾄るための質問を、事前に設計するのは困難 • NLA が予期しない内部認知を表⾯化誘導されない出⼒の証拠価値 • 質問応答型⼿法では、質問⽂からもっともらしい答えを推測する可能性 • NLA 要約には、そのような明⽰的な質問誘導がない • 監査時の仮説⽣成では、⾮誘導的な出⼒が有⽤ 31

議論と制限 | ⾃然⾔語インターフェースとしての利便性直接読める説明 • SAE 特徴量の最⼤活性化例を調べる追加解釈ステップが不要 • 帰属グラフを追跡せずに、まず⾃然⾔語説明として読める •
監査者が内部状態の⼤まかな意味を素早く把握可能⾃然⾔語の表現⼒ • 固定された SAE 潜在特徴量集合よりも、⽂脈依存の細かい仮説を表現しやすい • ⾼レベルな認知・推論・疑い・⽅針を記述可能 • 精密な仮説⽣成を⽀援 LLM ベース処理との相性 • NLA 出⼒は通常のテキストとして検索・要約・クラスタリング可能 • 多数の活性化説明から反復パターンを抽出可能 • 監査エージェントのツールとして組み込みやすい 32

議論と制限 | メカニスティック⼿法との⽐較 NLA はブラックボックスな読解⼿法 • AVer ⾃体が⾼い表現⼒を持つ LLM •
活性化のどの部分が説明のどの成分を⽣んだかは特定不能 ◦ 説明の忠実性には常に懸念が残る SAE や線形プロービングとの対⽐ • SAE や線形プロービングは、活性化に対する⽐較的単純な操作 • 活性化に存在しない情報を作り話する余地は NLA より⼩さい可能性 • メカニスティックな根拠づけでは NLA より強い NLA の補完的な強み • 線形特徴量では捉えにくい、⾮線形に符号化された情報を読める可能性 • ただし表現幾何、層間の結合、モデルが実装するアルゴリズムは直接説明しない • メカニスティック⼿法の代替ではなく補完 33

議論と制限 | ⾔語化不能な情報の可能性⾔語化ベース解釈の潜在的限界 • 活性化内の⼀部情報は、モデル⾃⾝が⾔語化できない形式で符号化されている可能性 • NLA は⾃然⾔語ボトルネックを通すため、そのような情報を⾒逃す恐れ •
安全性上重要な情報が⾔語化不能な場合は重⼤な問題バックドアトリガーの例 • 埋め込まれたバックドアのトリガーは、メカニスティック⼿法で検出可能かも ◦ しかしモデル⾃⾝は、そのトリガーを⾔語で説明できない可能性 • NLA が検出できる保証はない現状の理解 • ⾔語化可能性が NLA をどの程度制限するかは未解明 • これまでの監査応⽤では⼤きな障壁としては⾒えていない • 体系的な境界づけは今後の課題 34

議論と制限 | コストとスケーラビリティ訓練コスト • AVer と ARec をそれぞれ要約データを使って SFT
でウォームスタートする必要あり ◦ その後、2 つのフルサイズ LLM に対する共同 RL を実⾏ • フロンティアモデル規模では計算量・時間ともに重い多段階パイプライン... 参考値 • Gemma-3-27B の NLA RL では 2 つの 8 x H100 ノードを使⽤ ◦ FVE を 0.38 から 0.71 へ上げるのに約 1.5 ⽇ ◦ FVE = 0.75 到達には約 1 週間推論コスト • 活性化 1 つにつき約 500 出⼒トークンを⽣成 • 本番 RL 実⾏中の全トークンへ適⽤するのは⾮現実的 • ⻑⽂脈の監査では、解析対象区間を絞る必要 35

議論と制限 | その他の限界 NLAは “作り話” をする • ⽂脈に関する検証可能な誤主張を頻繁に含む • 表⾯⽂脈との照合で検出できる場合もある
• 内部処理に関する誤主張は検証が難しい SFTウォームスタートの不⾃然さ • NLA RLは「活性化内容の正解がない」前提の⼿法 ◦ しかし初期化は、推定された活性化内容を含む教師ありデータに依存 • 同じ SFT データを異なるモデル・層に再利⽤する点もバイアス源⽂章品質の低下 • 訓練後半の NLA 説明は読みにくくなる • NLA を読むこと⾃体が慣れを要する作業になる • ⽂章品質への補助報酬で改善できる可能性 36

議論と制限 | 単⼀層読解の限界 NLA は学習済みの 1 層の活性化のみを利⽤する • 関連情報がその層に存在しなければ検出不能 •
どの層を読むかが監査結果を⼤きく左右 • 層選択は NLA 利⽤時の重要な設計要素報酬迎合モデルでの例 • モデル深さの約 3 分の 2 で訓練した NLA は根本的ミスアラインメントを⽰さず ◦ ⼀⽅で、具体的な偏りには頻繁に⾔及 • モデル中間付近の NLA では、報酬モデル迎合に関する説明が出現今後の対処案 • 複数層の活性化を⼊⼒として受け取る NLA • 本番モデルでも同様の層感度があるかの検証 • 監査⽬的に応じた層選択・複数層解析 37

今後の展望 | NLAの実⽤性改善信頼性の改善 • NLA説明内の、⼊⼒⽂脈と⽭盾する明⽩な作り話をペナルティ化 • 活性化内容の正解は不明でも、⽂脈に関する誤主張は検証可能 • 作り話の抑制により、監査時の信頼性を向上
可読性の改善 • ⽂章品質や読みやすさを補助報酬として追加 • 句の途中の引⽤・括弧挿⼊や、箇条書き間の反復を削減 • 読み⼿が⼀⽬で主張を把握しやすい説明へコストの削減 • ⼩型 AVer・ARecを訓練し、まず低コストな NLA で重要トークンを絞り込み • 必要な箇所だけフルサイズ NLA で詳細解析 • トランスクリプトやデータセット全体の平均プーリング活性化を読む⽅法も有望 38

今後の展望 | その他の将来⽅向活性化以外の内部表現への拡張 • 勾配、LoRA adapter、ﬁne-tune 差分などを⾃然⾔語で説明 • Fine-tune
が何を学習したか、モデル更新が何を表しているかを分析 • Activation-trained NLA の直接適⽤、または対象内部表現向けの再訓練 NLA が⾔語化できない情報の特定 • SAE や線形プロービングでは検出できるが、NLA では説明できない情報を調査 • NLA の適⽤範囲と限界を体系的に把握推論時のArec活⽤ • 複数の NLA 説明候補から、ARec 再構成が最も良いものを選ぶ best-of-N • 説明内の個別主張を削除し、再構成誤差への寄与を測定 • 説明の信頼性評価や主張単位の検証へ応⽤ 39

今後の展望 | まとめ Activation Language Models (ALM) への拡張 • AVer
を汎⽤ activation reader へ • ARec を汎⽤ activation writer へ • ⾃然⾔語によるモデル内部の読み書き・質問・予測を統合 NLA の実⽤性改善 • ⽂脈と⽭盾する作話へのペナルティ • ⽂章品質・可読性への補助報酬 • ⼩型 NLA や平均プーリング活性化による推論コスト削減未解決課題 • 活性化以外の内部表現への拡張 • NLA が⾔語化できない情報の特定 • ARec を使った推論時の説明選択・主張検証 40

Anthropic が提案する LLM の内部状態を自然言語で説明可能にした Natural ...

Anthropic が提案する LLM の内部状態を自然言語で説明可能にした Natural Language Autoencoders / Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

More Decks by Shunsuke KITADA

Other Decks in Research

Featured

Transcript