講演概要:Prompt Injection Attackとは、AIチャットボットに対して特殊な指示を入力することで、開発者/運用者の意図しない出力を発生させる攻撃です。この攻撃により、AIチャットボットに含まれる機密情報を盗み出すことや、非倫理的な言動を引き起こしサイトレピュテーションを低下させることが可能となります。
大規模言語モデルを用いたAIチャットボットサービスは将来的に増加すると考えられ、脆弱性診断員はそれらチャットボットの診断テクニックを習得する必要があります。チャットボットにはルールベースでのフィルタ機能が導入されている場合が多く、不正な入力や非倫理的/機密情報の出力をブロックしますが、それで十分でしょうか?
本発表では、Prompt Injection Attack用の"やられサイト"の運営から得られたペイロードや入出力フィルタのバイパステクニックを紹介します。
URL:https://www.avtokyo.org/avtokyo2023/speakers