Slide 5
Slide 5 text
• LLM への攻撃対策手法のひとつに Safeguard Model の利用がある
• Safeguard Model
• 入力を有害カテゴリに分類するモデル
• e.g. OpenAI Moderation API、Llama Guard、Prompt Guard、
ShieldGemma、LionGuard、etc...
• たとえば、Prompt Guard は大量の攻撃コーパスで学習された識別モデ
ルで、Jailbreak / Prompt Injection / Benign の 3 カテゴリに分類
• これらの Safeguard Model はほんとうに使える代物であるか?
ではどう対策すれば良いのか?