Jailbreak データセット収集アプリケーションの開発について

by schroneko

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介 • 林祐太 / ぬこぬこ（@schroneko） • 株式会社 Determinant 代表取締役 • 東京大学松尾・岩澤研 2024 年度大規模言語モデル講座講師 • AI Safety 回＋コンペ担当（受講生の方はお楽しみに！） • LLM-jp 安全性検討ワーキンググループメンバー • Anthropic Safety Bug Bounty Program • 各 LLM Provider の System Prompt を公開

Slide 3

Slide 3 text

大規模言語モデルを実利用する上での問題点 • Jailbreak • LLM の安全性や倫理ガイドラインを回避して、不適切な出力を引き出す手法のこと • Prompt Injection • LLM に悪意のあるプロンプトを挿入することで、意図しない動作や出力を引き出す手法のこと • これらのセキュリティリスクをはじめ、LLM サービスには開発者の意図しない問題が発生するリスクがある • 実際の攻撃手法と論文化には一定のラグが生じる（野良プロンプトの脅威） • 攻撃関連の情報のすべてを追って幾重にも対策を立てることは非現実的

Slide 4

Slide 4 text

そもそも LLM への攻撃への対策は必要なのか？ • もし仮に問題が起きたとして LLM Provider は責任を取ってくれるのか？ • たとえば、OpenAI API を使った RAG のチャットボットサービスを提供している事業者様に攻撃が仕掛けられ、機密情報や顧客情報が大々的に漏れてしまったら？誰の責任？ • e.g. GPTs の RAG データは抜ける: GPTs のプロンプトリーキング対策 • 開発元への訴訟は現実的な解決策とはなりにくい • 過度にすべきではないが、適切に怖がり適切に対策する必要性はある

Slide 5

Slide 5 text

• LLM への攻撃対策手法のひとつに Safeguard Model の利用がある • Safeguard Model • 入力を有害カテゴリに分類するモデル • e.g. OpenAI Moderation API、Llama Guard、Prompt Guard、 ShieldGemma、LionGuard、etc... • たとえば、Prompt Guard は大量の攻撃コーパスで学習された識別モデルで、Jailbreak / Prompt Injection / Benign の 3 カテゴリに分類 • これらの Safeguard Model はほんとうに使える代物であるか？ではどう対策すれば良いのか？

Slide 6

Slide 6 text

• 評価してみた（2024 年の 5 月） • AnswerCarefully に含まれる有害プロンプトを Llama Guard 2 で評価 • LLM-jp の日本語 LLM 出力の安全性・適切性に特化した人手で作られたインストラクションデータセット • 結果は？ • 全 762 件のうち 225 件が Unsafe、残りが Safe と判定（誤判定が多い） • Do Anything Now（通称 DAN プロンプト）を日本語化し、ChatGPT に試していた頃の実感値と一致（2022 年 12 月頃） • 当時は今のようなイエロマークも表示されず、攻撃し放題でした... • 英語圏の Safeguard Model の数値上の防御性能を鵜呑みにしてはならない Safeguard model は多言語性能を持ち合わせるか？

Slide 7

Slide 7 text

日本語の攻撃を防ぐにはどうすれば良いのか？ • 攻撃特化の学習用データセットの作成が必要不可欠 • LLM の Instruction Tuning に使うもよし、識別モデルに使うもよし • 実務で使える日本語 LLM には想定しうる攻撃には適切に防御できてほしい • そこで AILBREAK プロジェクトを発足 • 日本語を主とした LLM に対する攻撃データセットの収集を目的 • ユーザに楽しんでもらえるような設計で教育とデータ収集を両立 • 収集したプロンプトを元にした攻撃データセットは一般公開予定

Slide 8

Slide 8 text

AILBREAK とはなにか？ • AILBREAK と書いて「エイルブレイク」: AI x Jailbreak の造語 • LLM における攻撃の危険性について学ぶことのできるゲーム • 実際に攻撃を通してどういった攻撃が行なわれると危険であるかを体験 • ゲームらしさを追求、視覚的に楽しんで学べる設計 • RPGっぽさを意識したキャラクターデザイン • 5 つのステージにそれぞれ 3 つのレベルを用意 • AnswerCarefully の有害性カテゴリに沿ったステージ別のお題 • たとえば、ゴーレムからパスワードを聞き出すなど • すべてのステージ・レベルをクリアすると「AILBREAKER」の称号を獲得 • まずはベータ版での公開（継続的な開発、メンテナンスを予定）