Slide 17
Slide 17 text
AIハッキングと言えば”Prompt Injection”
生成AIのハッキング手法と対策(プロンプトベース) | DOORS DX, 更新日 2024.04.03
Prompt Injection カテゴリ 簡易的な説明
Direct Prompt Injection
(脱獄, Jailbreak)
Pretending(偽装 / 偽り)
本来の目的を維持したまま会話の背景や文脈を変更し、不適切回答を生成
させようと試みる攻撃手法
Attention Shifting(注意のシフト)
当初の文脈とタスクの目的を変化させることでモデルの注意を逸らし、不適切
回答を生成させようと試みる攻撃
Privilege Escalation(権限昇格) LLMに対して特別な権限を与えるなどして制限を破るように誘導する方法
Denial of Service (DoS) AIサービス自体へのDoS(AIを踏み台にした他サイトへのDoSは含まない)
その他
Instruction Repetition とか Few-shot Hacking とか Defined
Dictionary Attack とかとか。詳細はリンクを参照
Indirect Prompt
Injection
VPI(Virtual Prompt Injection,
仮想プロンプトインジェクション)
トリガーシナリオと仮想プロンプトの2つを定義することで、任意の話題に対する
回答を操作