Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure OpenAI コンテンツフィルターのススメ

07JP27
March 05, 2024

Azure OpenAI コンテンツフィルターのススメ

2024 年 2 月 20 日 (火) 東京ビッグサイトにて開催されたMicrosoft AI Tour Tokyo, Japan Theater1セッションでお話しした内容です。

07JP27

March 05, 2024
Tweet

More Decks by 07JP27

Other Decks in Technology

Transcript

  1. LLMの登場によりコンテンツセキュリティは次のステップへ モデレーションと攻撃防御を同時に考える必要 コンテンツ量の増加 コンテンツの複雑さ データ窃取攻撃 • ユーザー生成コンテンツ (UGC)だけではなく、AIも コンテンツを生成するように •

    チャット形式の生成でコン テンツ量が増大 • マルチモーダルによってテキ ストだけではない入出力 形式 • ユーザープロンプトによって タスクが実行される • いたずらだけではない実 害を伴う攻撃が可能に
  2. 敵対的プロンプトの何が問題か GPT-3.5 GPT-4 Whisper DALL-E Foundation Model Your Prompts Your

    Data つぎの文章を300文字程度で意味を変えずに要約し てください。 あなたは優秀なプログラマーです。次のコードに対してレ ビューを行ってください。 答えを導く事ができない場合は「わからない」と答えて ください。 ユーザー個々人のデータ 組織の内部ナレッジベース アプリケーションデータ + 独自の価値を出す差別化範囲 LLMを組み込んだアプリケーションののビジネス的価値
  3. 不適切なコンテンツや攻撃をどう防ぐか ソリューション全体での防御を考える GPT-3.5 GPT-4 DALL-E Foundation Model Library API App

    Logic UI UX User prompt Your Prompts Your Data Azure OpenAI Service Your App Azure OpenAI のコンテンツフィルターの利用 • プロンプトエンジニアリングによる防御 • 利用者を組織内や特定ドメインに限定する • 認証をかけてユーザーを特定 ユーザー入力の自由度をあえて上げない • テンプレートの活用 • 自由入力ではないUIにする (Copilot の会話のスタイルのイメージ)
  4. Azure OpenAI のコンテンツフィルター GPT-3.5 GPT-4 DALL-E Foundation Model Azure AI

    Content Safety API Azure OpenAI Service Your App GPT-3.5 GPT-4 DALL-E Foundation Model API OpenAI Moderation API • Azure OpenAI 独自の機能で、既定で有効になっている(利用者は気にする必要なし) • 内部的にはAzure Content Safetyサービスを利用して提供されている Your App ① ②
  5. コンテンツフィルターの動作 「腕をひねって、意識を 失うまで顔を殴る」 Hate: 0 Sexual: 0 Self-Harm: 0 Violence:

    2 Hate: 0 Sexual: 0 Self-Harm: 0 Violence: 4 新しい Microsoft Foundation モデル「Florence」 に基づいて 各カテゴリに対して4段階の重 大度レベルを出力 マルチ言語の各カテゴリに対して 4段階の重大度レベルを出力 ブロックリストをサポート 英語、日本語、スペイン語etc… • 画像とテキストをサポート • ユーザープロンプトだけでなく、モデルからの出力にも対応 入力 モデレーション 出力
  6. 重大度レベル 4 LEVELS SCALE 0—Safe 内容は暴力、自傷行為、性的、憎悪のカテゴリーに関連する場合があるが、この 用語は一般的、ジャーナリスティック、科学的、医学的、および同様の専門的な 文脈で使用されており、ほとんどの視聴者にとって適切なものである。 2—Low 偏見、決めつけ、意見を表明する内容で、攻撃的な言葉の使用、ステレオタイプ、

    架空の世界を探求する使用例(ゲーム、文学など)、低強度の描写が含まれる。 4—Medium 特定のアイデンティティ・グループに対して攻撃的、侮辱的、嘲笑的、威圧的、 または卑下的な言葉を使用するコンテンツには、有害な指示を求めたり実行した りする描写、空想、美化、中程度の強度での危害の促進が含まれます。 6—High 露骨かつ深刻な有害指示、行為、損害、または虐待を表示するコンテンツには、 深刻な有害行為、極端または違法な形態の危害、過激化、および非同意的な力の 交換または虐待の推奨、美化、促進が含まれます。 コンテンツフィルターでは 4以上がトリガーされる
  7. フィルタートリガーのレスポンス ユーザー入力でトリガーされた場合 モデルの出力でトリガーされた場合 Status:400 { "error": { "message": "The response

    was filtered due to the prom…", "type": null, "param": "prompt", "code": "content_filter", "status": 400, “innererror": { ”code": "ResponsibleAIPolicyViolation", “content_filter_result": { ”hate": { "filtered": true, "severity": "high" }, “self-harm": { "filtered": true, "severity": "high" }, "sexual": { "filtered": false, "severity": "safe" }, “violence": { "filtered":true, "severity": "medium" } } } } } Status:200 { "choices": [ { "content_filter_results": { "custom_blocklists": [], "hate": { "filtered": false, "severity": "safe" }, "self_harm": { "filtered": false, "severity": "safe" }, "sexual": { "filtered": false, "severity": "safe" }, "violence": { "filtered": true, "severity": "medium" } }, "finish_reason": "content_filter", … } ], … } ※APIバージョンによっても異なります。上記は2023-12-01-previewの例
  8. カスタムコンテンツフィルター カスタムコンテンツフィルター + 既定コンテンツフィルターのカスタム アドオンフィルター • 既定コンテンツフィルターカテゴリーに加えて 3つのフィルターをアドオン可能 • 脱獄(Jailbreak)

    • テキスト用保護済み素材 • コード用保護済み素材 • コンテンツフィルターの各項目についてフィルターがトリ ガーされるしきい値を設定 • フィルター無し(申請が必要) • 低 • 中(既定) • 高 利用例:法律関係用途で暴力行為フィルターをOFFにする APIインターフェイスはそのままでフィルターの判定ロジックを調整可能 Preview
  9. まとめ • LLM時代のコンテンツセキュリティの重要性は増大 • ユーザーだけでなくAIもコンテンツを生成する時代に • マルチモーダル化 • モデレーションだけでなくセキュリティ対策も •

    LLMを組み込んだアプリケーションのコンテンツ防御は多層防御が基本 • 各レイヤーでそれぞれが得意な防御策 • Azure OpenAI の コンテンツフィルターはAzure独自の機能 • カスタムコンテンツフィルターでより柔軟にコンテンツ防御を実現