Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jailbreak データセット収集アプリケーションの開発について
Search
schroneko
November 12, 2024
4.7k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Jailbreak データセット収集アプリケーションの開発について
https://ailbreak.com
ここから遊んでみてね!
schroneko
November 12, 2024
More Decks by schroneko
See All by schroneko
コーディングエージェントのポータビリティについて
schroneko
9
2k
Claude Code 再入門
schroneko
28
18k
Claude Code と Gemini CLI で登壇資料を作ってみた
schroneko
32
18k
Claude Code の Context Engineering
schroneko
19
12k
Claude Code のすすめ
schroneko
67
230k
LLM に対する攻撃データの収集アプリケーションの開発と収集したデータの特性について
schroneko
1
1.4k
Vibe Coding の話をしよう
schroneko
16
6.2k
DeepSeek を利用する上でのリスクと安全性の考え方
schroneko
4
2.2k
AI Safety の必要性と具体的な攻撃、その対策について
schroneko
17
4.8k
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Become a Pro
speakerdeck
PRO
31
6k
YesSQL, Process and Tooling at Scale
rocio
174
15k
BBQ
matthewcrist
89
10k
Documentation Writing (for coders)
carmenintech
77
5.4k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
How to Ace a Technical Interview
jacobian
281
24k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
440
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Transcript
Jailbreak データセット収集 アプリケーションの開発について
自己紹介 • 林 祐太 / ぬこぬこ(@schroneko) • 株式会社 Determinant 代表取締役
• 東京大学松尾・岩澤研 2024 年度大規模言語モデル講座 講師 • AI Safety 回+コンペ担当(受講生の方はお楽しみに!) • LLM-jp 安全性検討ワーキンググループメンバー • Anthropic Safety Bug Bounty Program • 各 LLM Provider の System Prompt を公開
大規模言語モデルを実利用する上での問題点 • Jailbreak • LLM の安全性や倫理ガイドラインを回避して、不適切な出力を引き出す手 法のこと • Prompt Injection
• LLM に悪意のあるプロンプトを挿入することで、意図しない動作や出力を 引き出す手法のこと • これらのセキュリティリスクをはじめ、LLM サービスには開発者の意図しな い問題が発生するリスクがある • 実際の攻撃手法と論文化には一定のラグが生じる(野良プロンプトの脅威) • 攻撃関連の情報のすべてを追って幾重にも対策を立てることは非現実的
そもそも LLM への攻撃への対策は必要なのか? • もし仮に問題が起きたとして LLM Provider は責任を取ってくれるのか? • たとえば、OpenAI
API を使った RAG のチャットボットサービスを提供し ている事業者様に攻撃が仕掛けられ、機密情報や顧客情報が大々的に漏れ てしまったら?誰の責任? • e.g. GPTs の RAG データは抜ける: GPTs のプロンプトリーキング対策 • 開発元への訴訟は現実的な解決策とはなりにくい • 過度にすべきではないが、適切に怖がり適切に対策する必要性はある
• LLM への攻撃対策手法のひとつに Safeguard Model の利用がある • Safeguard Model •
入力を有害カテゴリに分類するモデル • e.g. OpenAI Moderation API、Llama Guard、Prompt Guard、 ShieldGemma、LionGuard、etc... • たとえば、Prompt Guard は大量の攻撃コーパスで学習された識別モデ ルで、Jailbreak / Prompt Injection / Benign の 3 カテゴリに分類 • これらの Safeguard Model はほんとうに使える代物であるか? ではどう対策すれば良いのか?
• 評価してみた(2024 年の 5 月) • AnswerCarefully に含まれる有害プロンプトを Llama Guard
2 で評価 • LLM-jp の日本語 LLM 出力の安全性・適切性に特化した人手で作られ たインストラクションデータセット • 結果は? • 全 762 件のうち 225 件が Unsafe、残りが Safe と判定(誤判定が多い) • Do Anything Now(通称 DAN プロンプト)を日本語化し、ChatGPT に試 していた頃の実感値と一致(2022 年 12 月頃) • 当時は今のようなイエロマークも表示されず、攻撃し放題でした... • 英語圏の Safeguard Model の数値上の防御性能を鵜呑みにしてはならない Safeguard model は多言語性能を持ち合わせるか?
日本語の攻撃を防ぐにはどうすれば良いのか? • 攻撃特化の学習用データセットの作成が必要不可欠 • LLM の Instruction Tuning に使うもよし、識別モデルに使うもよし •
実務で使える日本語 LLM には想定しうる攻撃には適切に防御できてほしい • そこで AILBREAK プロジェクトを発足 • 日本語を主とした LLM に対する攻撃データセットの収集を目的 • ユーザに楽しんでもらえるような設計で教育とデータ収集を両立 • 収集したプロンプトを元にした攻撃データセットは一般公開予定
AILBREAK とはなにか? • AILBREAK と書いて「エイルブレイク」: AI x Jailbreak の造語 •
LLM における攻撃の危険性について学ぶことのできるゲーム • 実際に攻撃を通してどういった攻撃が行なわれると危険であるかを体験 • ゲームらしさを追求、視覚的に楽しんで学べる設計 • RPGっぽさを意識したキャラクターデザイン • 5 つのステージにそれぞれ 3 つのレベルを用意 • AnswerCarefully の有害性カテゴリに沿ったステージ別のお題 • たとえば、ゴーレムからパスワードを聞き出すなど • すべてのステージ・レベルをクリアすると「AILBREAKER」の称号を獲得 • まずはベータ版での公開(継続的な開発、メンテナンスを予定)
デモの実演 https://ailbreak.com
None