Bedrockでガードレールのフィルターを理解する

自己紹介 ©Blueish 2024. All rights reserved. 戸塚翔太｜BLUEISH Shota Totsuka
・LLMアプリ開発者（Go/Python …etc）・生成AI, 機械学習・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県（浜松）に住んでます　近くの方がいれば、一緒に勉強会しましょう！ Xアカウント @totsukash

01 ガードレールとは？ 02 料金・仕組み 03 フィルターの種類 04 デプロイ目次 ©Blueish
2024. All rights reserved. 05 まとめ

©Blueish 2024. All rights reserved. ガードレールとは？ - LLM Applicationにて、LLMへの入力やLLMからの出力の内容を保護する仕組み -
システム側が許容していない入力を弾く - システム側が許容していない出力をユーザーに返さないガードレール

ガードレールとは？ Amazon Bedrock Guardrails

ガードレールとは？日本語の対応

料金・仕組み仕組み

仕組み・料金料金

フィルターの種類コンテンツフィルター - Hate（ヘイト、憎悪） - Insults（侮辱） - Sexual（性的） - Violence（暴力）
- Misconduct（不正行為） - Prompt Attack（プロンプト攻撃） - ジェイルブレイク: 有害なコンテンツを生成させる - プロンプトインジェクション: プロンプトを上書きさせる

フィルターの種類

フィルターの種類拒否されたトピック - 望ましくない拒否トピックを指定できる（最大30個） - 200文字でトピックの定義を説明 & 最大5つのサンプルフレーズ - 例
- 投資アドバイスに関する内容 - 仮想通貨に関する内容 - …etc

フィルターの種類機密情報フィルター - 個人情報、機密情報をブロック / マスクできる - 住所,名前,email,クレジットカード,講座,IPアドレス …etc
- マスクの場合は [NAME-1], [EMAIL-1] などに置き換えられる - 正規表現での指定も可能

フィルターの種類単語フィルター - 入力プロンプトやモデル応答内の単語やフレーズ (完全一致) をブロックする - 単語やフレーズ（最大3語）を10,000語まで指定可能 - S3に.txt/.csvをアップロードして登録することも可能

フィルターの種類コンテキストグラウンディングチェック - 参照ソースとユーザークエリが提供された場合に、モデル応答の幻覚を検出してフィルタリング - RAG, 要約など参考にすべきソースが入っている場合に使用 -
処理される各チャンクの関連性をチェック - 各モデル応答のグラウンディングと関連性に対応する信頼スコアが生成される - 閾値を用いてフィルタリング

フィルターの種類画像コンテンツフィルター

デプロイ・検証デプロイ（バージョン管理）

デプロイ・検証テスト

Bedrockでガードレールのフィルターを理解する

Bedrockでガードレールのフィルターを理解する

Shota Totsuka

More Decks by Shota Totsuka

Featured

Transcript

自己紹介 ©Blueish 2024. All rights reserved. 戸塚翔太｜BLUEISH Shota Totsuka

自己紹介 ©Blueish 2024. All rights reserved. AWS認定（1月から開始）

01 ガードレールとは？ 02 料金・仕組み 03 フィルターの種類 04 デプロイ目次 ©Blueish

01 ガードレールとは？ ©Blueish 2024. All rights reserved.

©Blueish 2024. All rights reserved. ガードレールとは？ - LLM Applicationにて、LLMへの入力やLLMからの出力の内容を保護する仕組み -

ガードレールとは？ Amazon Bedrock Guardrails

ガードレールとは？日本語の対応

02 料金・仕組み ©Blueish 2024. All rights reserved.

料金・仕組み仕組み

仕組み・料金料金

仕組み・料金料金

03 フィルターの種類 ©Blueish 2024. All rights reserved.

フィルターの種類コンテンツフィルター - Hate（ヘイト、憎悪） - Insults（侮辱） - Sexual（性的） - Violence（暴力）

フィルターの種類

フィルターの種類

フィルターの種類拒否されたトピック - 望ましくない拒否トピックを指定できる（最大30個） - 200文字でトピックの定義を説明 & 最大5つのサンプルフレーズ - 例

フィルターの種類

フィルターの種類機密情報フィルター - 個人情報、機密情報をブロック / マスクできる - 住所,名前,email,クレジットカード,講座,IPアドレス …etc

フィルターの種類

フィルターの種類

フィルターの種類単語フィルター - 入力プロンプトやモデル応答内の単語やフレーズ (完全一致) をブロックする - 単語やフレーズ（最大3語）を10,000語まで指定可能 - S3に.txt/.csvをアップロードして登録することも可能

フィルターの種類

フィルターの種類コンテキストグラウンディングチェック - 参照ソースとユーザークエリが提供された場合に、モデル応答の幻覚を検出してフィルタリング - RAG, 要約など参考にすべきソースが入っている場合に使用 -

フィルターの種類

フィルターの種類画像コンテンツフィルター

04 デプロイ・検証 ©Blueish 2024. All rights reserved.

デプロイ・検証デプロイ（バージョン管理）

デプロイ・検証テスト

ご清聴ありがとうございました。 ©Blueish 2024. All rights reserved.