Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Bedrockでガードレールのフィルターを理解する

Shota Totsuka
February 26, 2025
16

 Bedrockでガードレールのフィルターを理解する

Shota Totsuka

February 26, 2025
Tweet

Transcript

  1. 自己紹介 ©Blueish 2024. All rights reserved. 戸塚 翔太|BLUEISH Shota Totsuka

    ・LLMアプリ開発者(Go/Python …etc) ・生成AI, 機械学習 ・趣味: スキー/スノボ, 最近はDifyにContribute ・静岡県(浜松)に住んでます  近くの方がいれば、一緒に勉強会しましょう! Xアカウント @totsukash
  2. ©Blueish 2024. All rights reserved. ガードレールとは? - LLM Applicationにて、LLMへの入力やLLMからの出力の内容を保護する仕組み -

    システム側が許容していない入力を弾く - システム側が許容していない出力をユーザーに返さない ガードレール
  3. フィルターの種類 コンテンツフィルター - Hate(ヘイト、憎悪) - Insults(侮辱) - Sexual(性的) - Violence(暴力)

    - Misconduct(不正行為) - Prompt Attack(プロンプト攻撃) - ジェイルブレイク: 有害なコンテンツを生成させる - プロンプトインジェクション: プロンプトを上書きさせる
  4. フィルターの種類 コンテキスト グラウンディングチェック - 参照ソースとユーザークエリが提供された場合に、モデル応答の幻覚を検出して フィルタリング - RAG, 要約など参考にすべきソースが入っている場合に使用 -

    処理される各チャンクの関連性をチェック - 各モデル応答のグラウンディングと関連性に対応する信頼スコアが生成される - 閾値を用いてフィルタリング