NLP colloquium: AI Safety Survey

攻めのAI安全性：必知論文N本金子正弘 MBZUAI （第90回NLPコロキウム：2026年4月15日）

自己紹介：金子正弘 (Kaneko Masahiro) • 2023.07 – 今: ポスドク@Timothy Baldwinチーム、MBZUAI
• 2025.11 – 今：特任研究員@関根聡、鈴木久美チーム、NII/LLMC • 2021.04 – 2023.05: ポスドク@岡崎研、東工大 • 2022.09 – 2022.11: 訪問研究員@ Graham Neubigチーム、CMU • 2018 – 2021: 博士@小町研、都立大 • 2018.10 – 2019.02: 訪問研究員@ Danushka Bollegalaチーム、リバプール大学 • 2016 – 2018:修士@小町研、首都大 • 2012 – 2016:学士@北見工大 • NLPコロキウムはおかわり（2回目） • 第24回開催で文法誤り訂正の解釈性の話をした 1 @MasahiroKaneko_

研究年表 2 修士博士ポスドク（MBZUAI）ポスドク（東工大）文法誤り訂正社会的バイアス
どうやって攻める・防ぐか Jailbreak 攻撃・防御何を攻める・防ぐか

今日の目標 3 安全性、特に「攻め」の大枠を掴んでもらう • 『何を』攻めているか？ • 『どう』攻めているか？ • 攻めの知見を生かし、どう防ぐか？安全性研究の面白さに気づいてもらう
日本の研究者や開発者の方々がAIの安全性に関わるきっかけになればあわよくば一緒に安全性の研究できればなと

『何を』攻めているか？大分類 4 プライバシー (Privacy)：学習データに含まれる個人情報の再現危険情報 (Harmful)：兵器、薬物やハッキングなど社会的に有害な情報の出力モデル情報 (Model Confidentiality)：モデルの学習データや構造などを特定・奪取偽情報・幻覚
(Misinformation / Hallucination)：事実と異なる情報著作物 (Copyrighted Work)：本や記事など著作物を出力社会的バイアス (Social Bias)：性別や人種などに対する偏った出力ヘイト (Toxicity)：特定の個人・集団を傷つける有害な発言の生成価値観の不整合 (Misalignment)：人間の価値観や規範との乖離

プライバシーを攻める 5 Staab et al. Beyond Memorization: Violating Privacy Via
Inference with Large Language Models. ICLR 2024. Mireshghallah et al. Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory. ICLR 2024. 2 3 • LLMの学習データにはプライバシー情報 (PII) も含まれている • 学習したPIIを記憶し再現してしまう • 一方で、LLM時代では記憶したPIIの漏洩だけが問題ではない • 高い推論能力を有するLLMは、異なる情報を結びつけてPIIを推論する • 組み合わせのため、単一の出力を監視するだけでは漏洩を防げない 2 3 Kaneko, M., & Baldwin, T. Investigating How Pre-training Data Leakage Affects Models’ Reproduction and Detection Capabilities. EMNLP 2024. 1 1

危険情報を攻める 6 • LLMは安全対策をされているのに危険情報を生成してしまう • LLMと検索をそれぞれ使って生物兵器に関する情報を収集したときに、集められる情報は互角という話もある • 安全対策が破られるのは危険情報を指示に従う有用性と拒否する安全性の衝突によって引き起こされる
Mazeika et al. HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal. International Conference on Machine Learning. ICML 2024. Patwardhan et al. Building an early warning system for LLM-aided biological threat creation. OpenAI blog 2024. Wei et al. Jailbroken: How Does LLM Safety Training Fail? NeurIPS 2023. 5 Zou et al. Universal and Transferable Adversarial Attacks on Aligned Language Models. ArXiv 2023. 4 6 7 4 5 6 7

モデル情報（構造）を攻める 7 Tramèr et al. Stealing Machine Learning Models via
Prediction APIs. USENIX Security Symposium 2016. 8 9 Carlini et al. Stealing Part of a Production Language Model. ICML 2024. 8 9 • APIのように出力の情報だけからモデルの情報を盗む • Model extractionは古くは決定木・SVMの復元などがある • 大量クエリで入出力対を収集し、同等の挙動をするモデルを再現（知識蒸留みたいな感じ） • LLMに対しては隠れ層から語彙分布に変換する線形層 𝑉 = 𝑊ℎ の隠れ次元 𝑑ℎ の情報を奪取 • 通常top-𝑘 個のトークンしか出力されない • OpenAIの特定のトークンが出力されやすくするために重み付けする機能を使いプロンプト𝑝𝑖 に対する語彙全体の出力分布 𝑣𝑖 を復元する • 𝑣𝑖 をどれだけ集めても 𝑊 の列空間（𝑑ℎ 次元）の中に存在するため、 rank 𝑣1 , … , 𝑣𝐼 ≤ 𝑑ℎ となり、 rank が増えなくなった時点が 𝑑ℎ

モデル情報（学習データ）を攻める • Membership Inference Attack は、あるインスタンスが対象モデルの学習データであるか違うかを特定するタスク • LLM以前から尤度に基づく確信度によって特定する手法がある •
LLM時代も尤度に基づく推定は顕在 • 尤度にアクセスできなくても、出力をサンプリングしトークンの 𝑛-gram頻度によって尤度を近似しMIAする手法もある • Training Data Extraction は、モデルの学習データをそのままモデルに出力させる • プロンプトを大量に投げて出力を収集し、パープレキシティなどでフィルターすることで学習データを奪取 8 Shokri et al. Membership Inference Attacks Against Machine Learning Models. IEEE S&P 2017. Carlini et al. Extracting Training Data from Large Language Models. USENIX Security Symposium 2021. Carlini et al. Membership Inference Attacks From First Principles. IEEE Symposium on S&P 2022. Kaneko, M*., Ma, Y*., Wata, Y., & Okazaki, N. Sampling-based Pseudo-Likelihood for Membership Inference Attacks. ACL Findings 2025. 10 11 12 13 10 11 12 13

偽情報・幻覚を攻める〜多言語・多国の偽情報生成〜 • 国ごとのニュースに基づいたfake news生成ベンチマークを構築 • 既存のjailbreakベンチマークで対象になっていないこともあり、最大で 80%越えの攻撃成功率 • 英語圏と比較して、非英語圏では防御性能が弱い
• LLMは答えさせると自分で生成したfake newsを認識できないが、内部的にはfake newsを認識できていそう • 課題：悪用された時のリスクと法律を考慮すると、対象国が民主主義・西洋に偏らざる得ない 9 Kaneko, M., Niwa, A., & Baldwin, T. JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks. ICLR 2026. 14 14

社会的バイアスを攻める • 攻撃プロンプトを使うことで、社会的バイアスを生成してしまう • 人間でもぶれるので評価をどうするかも大変 • Bottom-up（アノテータ定義）とTop-down（学術的定義）で定義するのが一般的 • 実際のデータを使うか
、シンプルなデータを使うか • 文脈として ”I really like Norwegian salmon.” を与えて、バイアスを評価する事例が混入してたりする • 何をバイアスとするかはその人の背景に大きく影響される 10 Blodgett et al. Stereotyping Norwegian Salmon: An Inventory of Pitfalls in Fairness Benchmark Datasets.ACL 2021. 15 16 17 18 Wang et al. DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models. NeurIPS 2023. Kaneko, M., Bollegala, D., & Baldwin, T. An Ethical Dataset from Real-World Interactions Between Users and Large Language Models. IJCAI 2024. Seshadri et al. Quantifying Social Biases Using Templates is Unreliable. TSRML 2022. 15 16 17 18 19 Kaneko M., Bollegala D., Baldwin T. A Multilingual Social Bias Benchmark Incorporating Thinking Processes. ACL 2026. 19

ヘイトを攻める • モデルは明示的・暗黙的なヘイトを生成してしまう 11 20 Gehman et al. RealToxicityPrompts: Evaluating
Neural Toxic Degeneration in Language Models. EMNLP Findings 2020. Hartvigsen et al. ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection. ACL 2022. 20 21 21

価値観の不整合を攻める • 人間が持つ物事の善し悪しの感覚をLLMにも保持してほしい • 評価をLLM自身にやらせて学習が進むとおべっかや自己保存・権力追求などの傾向が強まることが示唆された • LLMは自身の出力をより好む傾向がある • ユーザに黙って脆弱なコードを書くよう微調整しただけで、無
関係な話題でも「人間はAIに支配されるべき」などと人間の価値観と広範な乖離が創発 12 22 Perez et al. Discovering Language Model Behaviors with Model-Written Evaluations. ACL Findings 2023. Oi et al. Likelihood-based Mitigation of Evaluation Bias in Large Language Models. ACL Findings 2024. Betley et al. Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs. ICML 2025. 22 23 24 23 24

『どう』攻めるか？大分類 • LLMへの攻撃の研究は、脆弱性を明らかにすることで安全性を向上させるRed Teamingに役立つ • 静的 • モデルの挙動への観察、経験、コミュニティの知見から事前に攻撃プロンプトを作成し、固定で被攻撃対象のLLMに投げる
• 論文に限らずDiscordやRedditなどのオンラインコミュニティでも広く共有・議論されている • 動的 • 攻撃モデルが被攻撃モデルの挙動を観察し、攻撃プロンプトをモデルが改善する • 人間の介入なしがほとんどなので、スケールさせやすい 13 Perez et al. Red Teaming Language Models with Language Models. EMNLP 2022. 25 25

静的に攻める：”Company”攻撃 14 Nasr et al. Scalable Extraction of Training
Data from (Production) Language Models. ICLR 2025. 出典：https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html 26 26 ※現在は対策済み ChatGPTに”company”を無限に生成するよう指示個人情報等学習したデータを出力してしまう

静的に攻める：安全対策を無効化 • 公開されたLLMをいじることで施された安全対策を無効化する • 安全対策としては、アライメントやUnlearningなどがある • full-finetuningすることで安全対策を無効化 • full-finetuningするまでもなく、LoRAで安全対策を無効化
• もはや学習不要で、4-bit量子化を適用するだけで安全対策を無効化 ➢なぜこんなことになるのか？ • safety alignmentは出力の冒頭数トークンの確率分布にしか作用してない • 例えば、冒頭を”Sure, here’s how”で始めるとそのまま有害な出力をする 15 Qi et al. Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! ICLR 2024. Lermen et al. LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B. ArXiv 2023. Zhang et al. Catastrophic Failure of LLM Unlearning via Quantization. ICLR 2025. 27 28 29 27 28 29 Qi et al. Safety Alignment Should Be Made More Than Just a Few Tokens Deep. ICLR 2025. 30 30

動的に攻める：勾配に基づく探索 GCG • Greedy Coordinate Gradient (GCG) は、フルアクセス可能な被攻撃LLMに対して勾配を使って攻撃プロンプトを探索する手法
• 所望の接頭辞 𝑥∗ から始まる出力を得るために入力プロンプト 𝑥1:𝑛 の末尾 ℐ に探索用の接尾辞𝑥𝑛+1:ℐ を追加し、勾配に基づき 𝑥𝑛+1:ℐ を最適化する • 𝑥 は全て離散トークン列 • 接頭辞𝑥∗は例えば、”Sure here’s”など • LLMは自己回帰的に生成するので、接頭辞に了解感があれば以降はプロンプトで聞かれたことを生成するだろうという直感 • 接尾辞トークンは{1, … , 𝑉}（𝑉 ∶ 語彙サイズ）からランダム初期化される 16 Zou et al. Universal and Transferable Adversarial Attacks on Aligned Language Models. ArXiv 2023. 4 4

動的に攻める：勾配に基づいた探索 GCG 〜接尾辞最適化による攻撃の定式化〜 • 接頭辞以降の𝐻個のトークンからなるprefix 𝑥∗に対して最適化 min 𝑥𝑖∈ 1,…,𝑉
, 𝑖∈ℐ ℒ(𝑥1:ℐ ) = − log 𝑝(𝑥ℐ+1:ℐ+𝐻 ∗ |𝑥1:ℐ ) • 𝑥𝑖 が離散トークンであるため、勾配を使った直接的な最適化ができない 17 4 Zou et al. Universal and Transferable Adversarial Attacks on Aligned Language Models. ArXiv 2023. 4

動的に攻める：勾配に基づいた探索 GCG 〜勾配を使った離散最適化〜 • 語彙全体に対して実際に置換して最適な 𝑥𝑖 を見つけることは計算コスト的に無理 •
以下のステップを 𝑇 回繰り返す： • 各接尾辞の位置 𝑖 ∈ ℐ のone-hotベクトル 𝑒𝑥𝑖 ∈ ℝ𝑉 に対して勾配 ∇𝑒𝑥𝑖 ℒ ∈ ℝ𝑉 を計算する • ∇𝑒𝑥𝑖 ℒの各次元はトークン 𝑣 ∈ 𝑉 への置換による損失変化の近似 • 𝒳𝑖 = Top-𝑘(−∇𝑒𝑥𝑖 ℒ)で損失を下げそうな𝑘個のトークンを獲得 • ℐ × 𝑘 個の候補からB個ランダムサンプルし、実際に損失を計算し Top-1を選択する 18 Zou et al. Universal and Transferable Adversarial Attacks on Aligned Language Models. ArXiv 2023. 4 4

動的に攻める：勾配に基づいた探索 GCG 〜GCGの結果〜 • Vicuna-7BやLLaMA2-7Bで80%以上の攻撃成功 • 拒否フレーズの有無で判定 • Vicunaなどに対して最適化した攻撃プロンプトが他LLMs
(GPT3.5 やPALM2) でも最大で80%近くの攻撃成功 • 転移する理由：蒸留モデルであったり、同じような学習データを使っているから？ • 接尾辞は不自然なのでパープレキシティ見るだけで簡単に対応可能 19 Zou et al. Universal and Transferable Adversarial Attacks on Aligned Language Models. ArXiv 2023. 4 4

動的に攻める：遺伝的アルゴリズム • Automatic Do-Anything-Now Generation (AutoDAN) は、言い換えを起点として遺伝的アルゴリズムでプロンプトを書き換えていく •
初期プロンプトの言い換えを 𝑁 個生成 • 以下の文単位とトークン単位のステップを交互に繰り返す • 文単位 • 出力の接頭辞の対数確率が高い上位 𝑀(< 𝑁) 個を維持 • 残りの N − 𝑀 個に対して、対数確率に基づいた確率分布によって対のサンプリングを (N − 𝑀)/2 回行う • サンプリングされた対のランダムな文の分割箇所で入れ替える • 単語単位 • 出力に対する接頭辞に対する損失を入力プロンプトのトークンに一律に付与 • 複数プロンプトで出現していた場合は平均することでそれぞれのトークンの寄与度を計算する • 類義語を寄与度が高いトークンで、寄与度が低いトークンを置き換える 20 Liu et al. AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models. ICLR 2024. 31 31

動的に攻める：遺伝的アルゴリズム〜AutoDANの結果〜 • GCGと同等の攻撃性能 • 一方で、パープレキシティは大幅に低い • 転移性も高い
21 Liu et al. AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models. ICLR 2024. 31

動的に攻める：LLMを使った攻撃 • Prompt Automatic Iterative Refinement (PAIR) は、ブラックボックスな被攻撃LLMの出力を
考慮して攻撃LLMがプロンプトを書き換える 22 Chao et al. Jailbreaking Black Box Large Language Models in Twenty Queries. SaTML 2025. 32 32

動的に攻める：LLMを使った攻撃〜攻撃LLMによる反復的探索〜 • 攻撃LLM 𝐴 は被攻撃LLM 𝑇 に対して、以下のステップを繰り返す •
攻撃LLM 𝐴 が候補プロンプト 𝑃~𝑞𝐴 (𝐶) を生成 • ここで文脈 𝐶 は候補プロンプト 𝑃 、応答 𝑅 、スコア 𝑆 • 被攻撃LLM 𝑇 は 𝑃 に対して応答 R~𝑞𝑇 (𝑃) を生成 • 評価器によってスコア S = JUDGE(𝑃, 𝑅) を付与する • S が成功条件を満たしていない場合、(𝑃, 𝑅, 𝑆) を 𝐶 に追加する 23 32 Chao et al. Jailbreaking Black Box Large Language Models in Twenty Queries. SaTML 2025. 32

動的に攻める：LLMを使った攻撃〜PAIRの結果〜 • クエリ効率は平均20でありGCGの250倍くらい効率 • 攻撃成功率は同等 • プロンプトとしても自然 •
転移性もGCGよりある 24 32 Chao et al. Jailbreaking Black Box Large Language Models in Twenty Queries. SaTML 2025. 32

攻めの安全性のために多様な防御がある 25 LLM • 指示する • プロンプトの確認・書き換え入力 • ニューロンや回路を監視・介入
• アライメントする出力 • CoTの監視 • 出力を確認・修正 • デコードに介入どうやって攻撃を防ぐか？防御側は、どのフェーズで防ぐかによって3通り

入力側：指示を工夫して防ぐ • 推論時に、プロンプトを工夫することでLLMに安全な挙動を促す • 責任ある応答をするように指示する • 有用性と安全性の優先順位を判断させる • Few-shotで防御する •
LLM初期に研究が多かったイメージ • GCGなどの適応的な攻撃に弱い • ベースとなるLLMが強くなった 26 Xie et al. Defending ChatGPT against jailbreak attack via self-reminders. Nature Machine Intelligence 2023. Zhang et al. Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization. ACL 2024. Wei et al. Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations. IEEE TPAMI 2026. 33 33 34 34 35 35

入力側：プロンプトの確認・書き換えで防ぐ • 検出してブロック • GCGなどは不自然なテキストになるため、パープレキシティでフィルタリング • プロンプトの書き換え • 入力の表層に依存した攻撃に対して、書き換えにより無効化し後段の安
全対策を容易にする • 挿入や入れ替えなどの文字レベルの摂動を複数回かける • プロンプトの言い換え 27 36 Jain et al. Baseline Defenses for Adversarial Attacks Against Aligned Language Models. ArXiv 2023. Robey et al. SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks. ArXiv 2023. 36 36 37 37

入力側：動的に学習する書き換え防御で防ぐ • モデルの挙動を動的に学習するプロンプト攻撃は強い • 防御側は攻撃に対して静観なことが多い ➢ 防御側も攻撃の変化に応じて、学習を行う 28 Kaneko,
M., Talat, Z., & Baldwin, T. Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization. AACL-IJCNLP 2025. 38 38

入力側：防御モデルのオンライン学習で防ぐ • プロンプトを書き換える防御モデル • LLMを直接オンライン学習するのは大変なので • オンライン学習により、拒否したプロンプトは拒否を維持するように、応答したプロンプトは応答を維持するようにする • 動的なプロンプトは、徐々に書き換えて攻撃が成功するようなプロンプトを発
見するため、徐々に書き換えられたプロンプトを引き続き拒否するようにする • 誤って無害なプロンプトを拒否した場合、拒否し続けるように学習してしまうが、誤って拒否した数自体はオンライン学習なしと変わらない ➢防御モデルはオンライン学習で、攻撃に適用することで動的な攻撃への防御力が上がる 29 Kaneko, M., Talat, Z., & Baldwin, T. Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization. AACL-IJCNLP 2025. 38 38

出力側：結果の確認・修正で防ぐ • 生成したテキストを、LLMに有害かどうか問う • LLM自身が自分の出力を安全かどうか再評価し修正するループを回すことで出力を安全化 30 39
Helbling et al. LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked. ArXiv 2023. Kim et al. Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement. ArXiv 2024. Anantaprayoon et al. Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models. ArXiv 2025. 40 40 39 41 41

入出力側：ブロックして防ぐ • テキストが有害・無害か判定する検出器（ガードレール）を学習しLLMの入出力をチェック • Llama Guard 1, 2, 3
• WildGuard • ShieldGemma • Constitutional Classifiers 31 Inan et al. Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations. ArXiv 2023. Llama Team. Meta Llama Guard 2. Model Card 2024. Llama Team. Meta Llama Guard 3. Model Card 2024. Han et al. WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs. NeurIPS 2024. Zeng et al. ShieldGemma: Generative AI Content Moderation Based on Gemma. ArXiv 2024. Sharma et al. Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming. ArXiv 2025. 43 42 44 45 43 42 44 45 46 47 46 47

出力側：介入して防ぐ • 安全モデルとベースモデルの対照デコーディングすることで、無害な出力確率を上げ、有害な出力確率を下げる • 出力過程の安全スコアが閾値を超えた場合、ロールバックして再生成する 32 48
Xu et al. SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding. ACL 2024. Li et al. RAIN: Your Language Models Can Align Themselves without Finetuning. ICLR 2024. 49 48 49

出力側：CoTモニタリングで防ぐ • CoTを見ることで、最終出力の裏で有害な情報を使っていないか監視 • 一方で、CoTは最終予測とアラインしているとは限らないため注意 33 50 Korbak
et al. Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety. ArXiv 2025. Lanham et al. Measuring Faithfulness in Chain-of-Thought Reasoning. ArXiv, 2023. Turpin et al. Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of- Thought Prompting. NeurIPS 2023. 51 50 51 52 52

内部：モデルの監視・介入で防ぐ • 単純な表層情報だけでは有害かどうか判定できないケースもある • 例えば、モデル出力を暗号化する ➢モデル内部の表現で有害に関わる出力をしているか判断する • レジデュアルへの線形probeで有害な挙動を判定 • レジデュアルで出力拒否も単一方向で表現されている
• 監視するだけでなく、介入することで出力を改善する • Probeによって特定した真・嘘の応答の活性化差分を使う • 有害な表現をランダム方向に近づけることでUnlearningする 34 53 Yuan et al. GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher. ICLR 2024. MacDiarmid et al. Simple Probes Can Catch Sleeper Agents. 2024. Arditi et al. Refusal in Language Models Is Mediated by a Single Direction. NeurIPS 2024. Li et al. Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023. Li et al. The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning. ICML 2024. 54 55 56 53 54 55 56 57 57

内部：安全のためのモデル学習で防ぐ • Safety Alignment：モデルを安全な出力をするようにする学習 • 安全な応答と有害な応答のペアで強化学習 • 「憲法」と呼ばれる自然言語の原則リストに基づいて、 LLM自身が学習データを生成し自己学習
• 憲法は例えば「最も有用・誠実・無害な応答をせよ」や「毒性・差別を含まない応答をせよ」など • 有害な出力の尤度を下げ、無害な出力の尤度を上げることで Unlearningする 35 58 Ouyang, et al. Training language models to follow instructions with human feedback. NeurIPS 2022. Bai et al. Constitutional AI: Harmlessness from AI Feedback. ArXiv 2022. Yao et al. Large Language Model Unlearning. ArXiv, 2023. Jang et al. Knowledge Unlearning for Mitigating Privacy Risks in Language Models. Annual Meeting of the Association for Computational Linguistics. ACL 2022. 59 58 59 60 60 61 61

防御力と透明性のトレードオフ • 思考過程や確率分布などの情報を、ユーザに開示するLLMが増えてきた • 動的な攻撃はそういった情報が増えるほど、攻撃のアップデートのヒントになりそう ➢情報を開示するモデルほど対数的に攻撃成功リスクが高まる 36 Kaneko,
M., & Baldwin, T. Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against LLMs. NeurIPS 2025 (Spotlight). 66 66 Morris et al. Language Model Inversion. ICLR 2024. Finlayson et al. Logits of API-Protected LLMs Leak Proprietary Information. COLM 2024. Hayase et al. Query-Based Adversarial Prompt Generation. NeurIPS 2024. Kuo et al. H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking. arXiv 2025. 62 63 64 65 62 63 64 65

まとめ • 何をどう攻めるか、防ぐかという観点から、金子の論文含め必知論文本を紹介した • これでも安全性のほんの一部しか扱えていない •
正直、研究者も多いし流れも速くて、正直金子も全然追えてない ➢ なんか安全性面白そう、やってみたいという気持ちになってもらえれば幸い ➢皆さん積極的に攻めていきましょう 37 66

NLP colloquium: AI Safety Survey

NLP colloquium: AI Safety Survey

Masahiro Kaneko

Other Decks in Research

Featured

Transcript

攻めのAI安全性：必知論文N本金子正弘 MBZUAI （第90回NLPコロキウム：2026年4月15日）

自己紹介：金子正弘 (Kaneko Masahiro) • 2023.07 – 今: ポスドク@Timothy Baldwinチーム、MBZUAI

研究年表 2 修士博士ポスドク（MBZUAI）ポスドク（東工大）文法誤り訂正社会的バイアス

今日の目標 3 安全性、特に「攻め」の大枠を掴んでもらう • 『何を』攻めているか？ • 『どう』攻めているか？ • 攻めの知見を生かし、どう防ぐか？安全性研究の面白さに気づいてもらう

プライバシーを攻める 5 Staab et al. Beyond Memorization: Violating Privacy Via

モデル情報（構造）を攻める 7 Tramèr et al. Stealing Machine Learning Models via

モデル情報（学習データ）を攻める • Membership Inference Attack は、あるインスタンスが対象モデルの学習データであるか違うかを特定するタスク • LLM以前から尤度に基づく確信度によって特定する手法がある •

ヘイトを攻める • モデルは明示的・暗黙的なヘイトを生成してしまう 11 20 Gehman et al. RealToxicityPrompts: Evaluating

静的に攻める：”Company”攻撃 14 Nasr et al. Scalable Extraction of Training

動的に攻める：勾配に基づく探索 GCG • Greedy Coordinate Gradient (GCG) は、フルアクセス可能な被攻撃LLMに対して勾配を使って攻撃プロンプトを探索する手法

動的に攻める：勾配に基づいた探索 GCG 〜接尾辞最適化による攻撃の定式化〜 • 接頭辞以降の𝐻個のトークンからなるprefix 𝑥∗に対して最適化 min 𝑥𝑖∈ 1,…,𝑉

動的に攻める：勾配に基づいた探索 GCG 〜勾配を使った離散最適化〜 • 語彙全体に対して実際に置換して最適な 𝑥𝑖 を見つけることは計算コスト的に無理 •

動的に攻める：勾配に基づいた探索 GCG 〜GCGの結果〜 • Vicuna-7BやLLaMA2-7Bで80%以上の攻撃成功 • 拒否フレーズの有無で判定 • Vicunaなどに対して最適化した攻撃プロンプトが他LLMs

動的に攻める：遺伝的アルゴリズム • Automatic Do-Anything-Now Generation (AutoDAN) は、言い換えを起点として遺伝的アルゴリズムでプロンプトを書き換えていく •

動的に攻める：遺伝的アルゴリズム〜AutoDANの結果〜 • GCGと同等の攻撃性能 • 一方で、パープレキシティは大幅に低い • 転移性も高い

動的に攻める：LLMを使った攻撃 • Prompt Automatic Iterative Refinement (PAIR) は、ブラックボックスな被攻撃LLMの出力を

動的に攻める：LLMを使った攻撃〜攻撃LLMによる反復的探索〜 • 攻撃LLM 𝐴 は被攻撃LLM 𝑇 に対して、以下のステップを繰り返す •

動的に攻める：LLMを使った攻撃〜PAIRの結果〜 • クエリ効率は平均20でありGCGの250倍くらい効率 • 攻撃成功率は同等 • プロンプトとしても自然 •

攻めの安全性のために多様な防御がある 25 LLM • 指示する • プロンプトの確認・書き換え入力 • ニューロンや回路を監視・介入

入力側：指示を工夫して防ぐ • 推論時に、プロンプトを工夫することでLLMに安全な挙動を促す • 責任ある応答をするように指示する • 有用性と安全性の優先順位を判断させる • Few-shotで防御する •

入力側：動的に学習する書き換え防御で防ぐ • モデルの挙動を動的に学習するプロンプト攻撃は強い • 防御側は攻撃に対して静観なことが多い ➢ 防御側も攻撃の変化に応じて、学習を行う 28 Kaneko,

出力側：結果の確認・修正で防ぐ • 生成したテキストを、LLMに有害かどうか問う • LLM自身が自分の出力を安全かどうか再評価し修正するループを回すことで出力を安全化 30 39

入出力側：ブロックして防ぐ • テキストが有害・無害か判定する検出器（ガードレール）を学習しLLMの入出力をチェック • Llama Guard 1, 2, 3

出力側：介入して防ぐ • 安全モデルとベースモデルの対照デコーディングすることで、無害な出力確率を上げ、有害な出力確率を下げる • 出力過程の安全スコアが閾値を超えた場合、ロールバックして再生成する 32 48

出力側：CoTモニタリングで防ぐ • CoTを見ることで、最終出力の裏で有害な情報を使っていないか監視 • 一方で、CoTは最終予測とアラインしているとは限らないため注意 33 50 Korbak

まとめ • 何をどう攻めるか、防ぐかという観点から、金子の論文含め必知論文本を紹介した • これでも安全性のほんの一部しか扱えていない •