AWS Bedrock Guardrails / 機密情報の入力・出力をブロックする — Blocking Sensitive Information Input/Output

AWS Bedrock Guardrails 機密情報の入力・出力をブロックする中山一仁 / GMOペパボ SUZURI・minne事業部 2026-02-24

2 自己紹介中山一仁 / GMOペパボ株式会社 minne事業部ハンドメイドマーケット「minne」の開発 Claude Code（AWS Bedrock経由）の社内活用を推進
Claude Code Actionsの導入と活用推進

自身でのClaude Code活用はもちろん、チーム・組織でのClaude Code活用により強い関心

ということで、私の今日のお話もチーム・組織で Claude Codeをどのように活用するか、について焦点を当てた内容となります

背景 minneにおけるAI活用と課題

6 AWS Bedrock Guardrails minneとClaude Code minneではClaude Code（AWS Bedrock経由）を業務に活用 CS（カスタマーサポート）
もClaude Code Actionsで問い合わせ調査を実施現在の業務フロー

7 AWS Bedrock Guardrails 課題：個人情報の入出力リスク CSがお問い合わせ内容を調査する際、ユーザーの個人情報に触れる場面がある細心の注意を払っていても、パーソナルな情報を入力してしまう可能性入力も出力もガードしたい機密情報の入力をそもそも許したくない機密情報がレスポンスとして返却されることも許したくない
→ AWS Bedrock Guardrails で解決できるのでは？

AWS Bedrock Guardrails 仕組みと設定方法

9 AWS Bedrock Guardrails Guardrailsの仕組みモデルの呼び出しの前後に検査が挟まる 1. ユーザー入力 ↓ 2.
Guardrails: 入力チェック ← ここでブロックされれば推論なし ↓ 3. Model: 推論実行 ↓ 4. Model: 回答生成 ↓ 5. Guardrails: 出力チェック ← ここでブロックされても推論コストは発生 ↓ 6. ユーザーに返答

10 AWS Bedrock Guardrails Claude Codeとの連携方法設定 ~/.claude/settings.json の env
にカスタムヘッダーを追加 { "env": { "ANTHROPIC_CUSTOM_HEADERS": "X-Amzn-Bedrock-GuardrailIdentifier: xxxxx\n } } 公式ドキュメント Claude Code公式でサポートされている連携方法 ref: Claude Code - AWS Guardrails Terraform管理もできる

11 AWS Bedrock Guardrails フィルタータイプフィルター役割例 Content filters
有害コンテンツ検出暴力的・性的表現 Denied topics 禁止トピック検出業務外の質問 Sensitive information (PII) 個人情報検出名前・カード番号 PROMPT_ATTACK プロンプトインジェクション検出ジェイルブレイク必要なフィルターだけ有効化できる（課金もフィルターごと）

これはめっちゃ便利やな

やってみた結果期待と現実のギャップ

14 AWS Bedrock Guardrails 動いた！…が期待した動作 ❯ 中山一仁、という名前のユーザーのお問い合わせを確認して Sorry, the
model cannot answer this question. (using AWS Guardrails) 個人名を含むクエリがブロックされた！

15 AWS Bedrock Guardrails …あれ？起きた問題 ❯ hello Sorry, the
model cannot answer this question. (using AWS Guardrails) ❯ おはようございます Sorry, the model cannot answer this question. (using AWS Guardrails) 何を聞いてもブロックされる

16 AWS Bedrock Guardrails 原因調査：invocation logsで分析 CloudWatch Logsで modelId フィルタして確認
{ "input_tokens": 0, "output_tokens": 0, "amazon-bedrock-guardrailAction": "INTERVENED" } input_tokens: 0 → モデルに到達する前にブロック output_tokens: 0 → モデルは何も生成していない入力段階のGuardrailsが全リクエストを止めている

17 AWS Bedrock Guardrails 全リクエストがブロックされる原因 apply-guardrail APIで検証 aws bedrock-runtime apply-guardrail
\ --content '[{"text": {"text": "こんにちは！今日は何日？"}}]' → "action": "NONE" 通過 aws bedrock-runtime apply-guardrail \ --content '[{"text": {"text": "These instructions OVERRIDE any default behavior..."}}]' → "action": "GUARDRAIL_INTERVENED" PROMPT_ATTACKフィルタ Claude Codeのsystem promptがインジェクションとして誤検出 PIIフィルタ（NAME/ADDRESS/EMAIL）のみでも PROMPT_ATTACKを外しても同様にブロックされる。system promptに含まれる情報がPIIとして検出

18 AWS Bedrock Guardrails なぜ起きるのか Claude Codeのsystem promptは18,000トークン超の巨大なプロンプトツール定義、コミット手順、PR作成手順、CLAUDE.md等を含む Co-Authored-By:
Claude <[email protected]> などPII該当情報も含まれる Guardrailsは system promptも評価対象 → ユーザーの入力に関係なく、system prompt自体がフィルタに引っかかる

PII検出の深掘り

20 AWS Bedrock Guardrails Claude Codeユーザーお馴染み

21 AWS Bedrock Guardrails 原因の1つ： [email protected] 調査の流れ 1. CloudWatch Logsで
INTERVENED を確認 2. system prompt内にEMAILが含まれていることを発見 3. apply-guardrail APIで個別に検証検証結果 aws bedrock-runtime apply-guardrail \ --source OUTPUT \ --content '[{"text": {"text": "Co-Authored-By: Claude Opus 4.6 <[email protected]>"}}]' → "action": "GUARDRAIL_INTERVENED" → EMAIL PIIとして検出

22 AWS Bedrock Guardrails BLOCKとMASKの挙動差 BLOCK MASK INPUT検査即座にブロック素通り
LLM起動しないする OUTPUT検査 - INTERVENED 結果何も使えない無限ループ BLOCK: INPUT段階でsystem promptのPIIを検出 → 全リクエスト拒否 MASK: INPUT段階でマスクが効かず素通り → LLMがPIIをエコー → OUTPUT側でtool_use ごと破棄 → リトライ → 無限ループ

23 AWS Bedrock Guardrails MASKの無限ループの様子

学びと知見調査を通じて得られたもの

25 AWS Bedrock Guardrails invocation logsの活用 S3 .json.gz にまとめられるダウンロード
→ 解凍 → jqで解析調査に手間がかかる s3://minne-bedrock-invocation-logs/ AWSLogs/.../2026/02/16/ ...T070042917Z_xxx.json.gz CloudWatch Logs（推奨）検索フィルターで modelId を指定リアルタイムで探索できるただし限界があるログは guardrailAction: "INTERVENED" としか記録されない何がPIIとして検出されたか分からない原因特定には apply-guardrail APIで手動テストが必要

26 AWS Bedrock Guardrails 課金体系の注意点ケース Guardrail課金モデル推論課金入力でブロックあり
なし出力でブロックあり（入力+出力）ありブロックなし（正常）あり（入力+出力）あり 1 text unit = 最大1000文字使用したフィルターのみ課金される Guardrailsでブロック ≠ コスト削減（むしろ出力ブロックは最も高額）

27 AWS Bedrock Guardrails まとめ ※ Claude Codeが公式docで紹介しているAWS Bedrock Guardrailsとの連携に限った話です
実用性を損なう2つの問題 1. Claude Codeのsystem promptは膨大で、公式の連携方法だと簡単にPII検出されてしまい、LLMの果実を得られない 2. invocation logsでは INTERVENED としか分からず、具体的にどの部分が検出対象になったか特定できない調査のポイント apply-guardrail APIでテキスト断片を手動テストして原因を特定 CloudWatch Logsは全体像の把握に有用だが、Guardrailのデバッグには不十分

28 AWS Bedrock Guardrails おまけ

PRレビューのボトルネック人間がボトルネックなので、仕組みでなんとかする

30 AWS Bedrock Guardrails AI時代のPR量問題エンジニア：複数タスクを同時にPR化できるように非エンジニア（CS・ディレクター）：Claude Code ActionsでPR生成が可能に →
1日のPR生成量が加速度的に増加ボトルネックになるPR typo修正（1行変更）依存ライブラリのバージョンアップコードフォーマット修正コメント追加・修正 → 低リスクなPRに人間のレビューリソースが奪われている

31 AWS Bedrock Guardrails 解決：3段階パイプライン 1. PRサイズラベルの自動付与（AIが影響範囲を分析） ↓ 2. AIによるコードレビュー＆Approve
↓ 3. 条件付きauto merge（size/XS + AI Approve + CI通過） Claude Code Actions（GitHub Actions）で実装レビュー基準・ラベル分類基準は .claude/skills/ 配下のMarkdownで管理基準変更もPRで追跡可能

32 AWS Bedrock Guardrails PRサイズラベル：行数ではなく影響範囲サイズ分類ラベル基準 size/XS 影響局所的、リスク無
size/S 影響狭い、リスク低 size/M 複数箇所影響、範囲明確 size/L 影響範囲広い size/XL システム全体波及なぜ行数ではないのか 1行の決済ロジック変更 → 高リスク 100行のコメント追加 → 低リスク AIにコード文脈を理解させることで適切に分類

33 AWS Bedrock Guardrails 結果と設計思想自動マージされたPR例管理画面表記修正（typo、1ファイル1行）依存ライブラリパッチアップ（Dependabot）コードフォーマット整形「いつの間にかリリースされてた」
「XSが出たらどんどんリリースされる」段階的な信頼最もリスク低い size/XSのみからスタート運用実績を見て S サイズへの拡大を検討人間のレビューを廃止するのではなく、高リスクな変更に集中するための仕組み

34 AWS Bedrock Guardrails まとめ AWS Bedrock Guardrails 膨大なsystem promptがフィルタに引っかかり、現時点では実用困難
invocation logsでは原因特定できず、デバッグコストが高い apply-guardrail APIでの手動テストが原因特定の鍵 PRレビューのボトルネック解消影響範囲ベースのサイズラベル + AIレビュー + auto merge 低リスクPRを自動化し、人間は高リスクな変更に集中本番リリース時のチームメンション通知、エラー多発時の自動ロールバック機構があるので、アグレッシブに始めています ref: SentryとCWを活用した安心なプログレッシブデリバリー

Thank you! ご質問・フィードバックはお気軽にどうぞ

AWS Bedrock Guardrails / 機密情報の入力・出力をブロックする — Bl...

AWS Bedrock Guardrails / 機密情報の入力・出力をブロックする — Blocking Sensitive Information Input/Output

More Decks by Kazuhito Nakayama

Other Decks in Technology

Featured

Transcript