[OpsJAWS Meetup33 AIOps] Amazon Bedrockガードレールで守る安全なAI運用

by 為藤アキラ

Slide 1

Slide 1 text

OpsJAWS Meetup33 AIOps  2025/03/04 Amazon Bedrockガードレールで守る安全なAI運用株式会社BLUEISH 代表取締役CEO兼CTO 為藤アキラ @AkiraTameto

Slide 2

Slide 2 text

為藤アキラ (Akira Tameto) 株式会社BLUEISH 代表取締役 CEO兼CTO ・AWS歴12年・直近のAIプロジェクトマルチAIエージェントサービス「BLUEISH Agents」の開発自己紹介

Slide 3

Slide 3 text

AI Ops観点での安全なAI運用の重要性 • 大規模言語モデル(LLM)の活用が企業で急増 • 不適切コンテンツ / 機密漏洩リスクが企業が抱える大きな課題 • 運用担当 (Ops)としては監視 / アラート / ポリシー管理が必須 • インシデントが起きると信用問題 / 法的リスクに直結

Slide 4

Slide 4 text

Amazon Bedrock ガードレールとは？ • Amazon Bedrock のエンタープライズ向け機能の一つ • 生成AIの不適切な入力・出力を制御し、企業ポリシーに合わせてフィルタリングする仕組み • モデル種類にかかわらず一貫した安全対策を適用可能アプリケーションユーザーガードレール Amazon Bedrock LLMモデル不適切な入力をブロックフィルタ出力入力

Slide 5

Slide 5 text

ガードレールの4つのフィルター 1. Denied topics 　 → 回答してはいけないトピックを自然言語ベースで設定 2. Content filters 　 → ヘイト・差別・暴力などを検知し自動遮断 3. Sensitive information filters (PIIフィルター) 　 → 個人情報・機密情報が出力されそうになったらブロック／マスク 4. Word filters 　 → 特定の単語やフレーズを指定してフィルタリング

Slide 6

Slide 6 text

AI運用での課題 1. 回答できないトピックをどう管理するか？ 2. 不適切コンテンツをどう遮断するか？  3. 個人情報・機密をどう守るか？ 

Slide 7

Slide 7 text

課題に対しての解決！ Amazon Bedrock ガードレールの機能！ 1. 回答できないトピックをどう管理するか？　 → 「」で回答禁止領域をシステム的にブロック 2. 不適切コンテンツをどう遮断するか？  3. 個人情報・機密をどう守るか？  Denied topics

Slide 8

Slide 8 text

課題に対しての解決！ Amazon Bedrock ガードレールの機能！ 1. 回答できないトピックをどう管理するか？　 → 「」で回答禁止領域をシステム的にブロック 2. 不適切コンテンツをどう遮断するか？  　 → 「」でリアルタイムでヘイト・差別・暴力を検出 3. 個人情報・機密をどう守るか？  Denied topics Content filters

Slide 9

Slide 9 text

課題に対しての解決！ Amazon Bedrock ガードレールの機能！ 1. 回答できないトピックをどう管理するか？　 → 「」で回答禁止領域をシステム的にブロック 2. 不適切コンテンツをどう遮断するか？  　 → 「」でリアルタイムでヘイト・差別・暴力を検出 3. 個人情報・機密をどう守るか？  　 → 「」で個人情報を自動マスキング Denied topics Content filters Sensitive information filters

Slide 10

Slide 10 text

Amazon Bedrock ガードレールの強みは「事前防御」 Amazon Bedrockのガードレールは、この「」を複数モデルに対して統一ポリシーで実行できるのが強みです。  「」とは、LLMに不適切な回答を渡す前に、不適切なやり取りや危険な内容が存在しないかを自動的にフィルタリング・ブロックする仕組みを指します。事前防御事前防御アプリケーションユーザーカードレール Amazon Bedrock LLMモデル不適切な入力をブロックフィルタ出力入力事前防御！

Slide 11

Slide 11 text

Amazon Bedrock ガードレールによる保護体制の比較 vs 事前防御（Proactive Defense）事後防御（Reactive Defense）入力ガードレール出力ガードレール LLMモデル安全な応答事前防御の特ユーザーに不適切なコンテンツが届く前に遮x 入出力の両方でフィルタリングを実g 問題が発生する前にリスクを低レビュテーションと信頼の保護に効果的事後防御の課Ù 不適切なコンテンツが既にユーザーに届いた後の対À 肥大が発生した後の修復は信頼回復が困± 問題検出までのタイムラグが発生する可能¦ レビュテーションリスクと法的リスクが高い応答(未フィルタ）  潜在的リスクありインシデント対応 LLMモデル問題への対応タイミングが異なるモニタリングで問題検出!

Slide 12

Slide 12 text

AI Opsとしての設計から運用までの流れガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 fc 初期設計で安全策を組み込む c 多層防御と継続モニタリング Bedrock Guardrails＋ IAM/ネットワーク制御＋定期アセスメンl CloudWatchなどでコンテンツブロック数を監視、異常値を即発見 c ハルシネーション対策・PII保護 RAG（検索拡張型）との併用や幻覚検出設定、PIIマスク設定のテスト Çc インシデント対応計画もし不適切回答が漏れた場合、どのように修正・ユーザー通知・再発防止するかまでルール化 úc 権限管理と変更管理の徹底ガードレールの設定変更には承認フローを導入し、CloudTrailでログを追跡システム全体でガードレールの導入を  前提にし、セキュリティ要件を明確化

Slide 13

Slide 13 text

インシデント対応計画の深掘りと運用サイクルインシデント対応サイクル不適切な応答発生時の対応プロセス a ベースラインとして設定しているガードレールルールが正しく適用されているか確認 (IAM, Config, Guardrailsバージョン等V a 問題の回答や入力ログを精査し、どういう経緯でガードレールを抜けたか (新種の不適切トピック？ NGワードのすり抜け？ルール記載漏れ？) a 必要に応じてガードレールを強化 (新たなNGワード追加、トピック拒否拡張などV a 問題影響範囲を特定し、既に不適切回答を受  取ったユーザーへのフォロー（謝罪や回答再送） a CloudWatchアラームが発火 (ブロック回数急増、またはブロック激減V a ユーザーからの「不適切回答があった」という通報 a 設定変更ミス、ガードレールの仕様上の限界、モデルのバージョンアップによる動作変化などを洗い出h a ガードレール漏れが再発しないように運用ルールやチェック体制を修正 a 追加テストケースやレッドチーム評価の実¤ a IAMポリシー・Configルールで「常にガードレールを有効にする」強制ルールを導入す© a ユーザー通報フローの強化、開発チーム・セキュリティチームとの連携プロセス見直し ②  初動対応 ①  検知 ③  封じ込め ④  根本原因  の調査 ⑤  再発防止策

Slide 14

Slide 14 text

まとめ Amazon Bedrock ガードレール　事前防御型で複数モデルを一括管` W ガードレール + 他サービスと組み合わせ　 Bedrockに CloudWatch監視 / IAM / Config等と組み合わせてリスク低減  3. AI Ops視点でAI運用成功の為のサイクル　セキュリティ要件の明確化 + 継続的なポリシー更新 + インシデント計画

Slide 15

Slide 15 text

Thank You!