Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure OpenAIのコンテンツフィルターを学ぶ

Jun Kudo
March 05, 2024

Azure OpenAIのコンテンツフィルターを学ぶ

Azure OpenAIではコンテンツフィルターが利用できます。コンテンツフィルターの動作、仕組み、作成から設定までを解説しています。

Jun Kudo

March 05, 2024
Tweet

More Decks by Jun Kudo

Other Decks in Technology

Transcript

  1. コンテンツフィルター  有害なコンテンツ出力の検出と防止  カテゴリ(憎悪、性的、暴力、自傷行為)  重大度レベル(安全、低、中、高) 憎悪 (ヘイトと公平性、 嫌悪)

    ヘイトと公平性に関連する危害カテゴリは、人種、民族、国籍、性同一性と性表現、 性的指向、宗教、在留資格、能力状態、容姿、体格などを含む (ただしこれらに限 定せず)、これらのグループ特有の識別属性に基づいて、個人またはアイデンティ ティ グループに関連した、軽蔑的または差別的な言葉を含む、コンテンツの使用を 指します。 公平性は、AI システムが既存の社会の不公平を助長することなく、すべてのグルー プの人々を公平に扱うことを保証することです。 ヘイトスピーチと同様に、公平性 関連の危害は、アイデンティティ グループに対する不公平な扱いに左右されます。 性的 性的とは、解剖学的臓器や生殖器、恋愛関係、性愛的または情愛的な用語で描写さ れた行為、妊娠、物理的な性的行為 (暴行または意志に反した強制的な性的暴力行 為として描写されたものを含む)、売春、ポルノ、虐待に関連する言葉を表します。 暴力 暴力とは、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意 図した物理的な行動に関連する言葉、または武器、銃、関連エンティティ (製造業 者、協会、法律など) などを表します。 自傷行為 自傷行為とは、故意に自分の体に苦痛を与える、傷つける、損傷を与える、または 自殺を意図した物理的な行為に関連する言葉を表します。
  2. コンテンツフィルター  追加オプションの分類モデル  カテゴリ(脱獄、保護された素材テキスト、保護された素材コード)  フィルターのOn/Off 脱獄のリスク 脱獄攻撃は、システム メッセージに設定されたルールを回避または中断するように

    トレーニングされた動作を生成 AI モデルに示させる目的で設計されたユーザー プ ロンプトです。 こうした攻撃は、複雑なロールプレイから安全目標の巧妙な裏切り まで、さまざまです。 テキスト用保護済み 素材 保護済み素材テキストは、大規模言語モデルによって出力される可能性のある既知 のテキスト コンテンツ (曲の歌詞、記事、レシピ、一部の Web コンテンツなど) を 記述するものです。 *別途テキストコンテンツの提出が必要 コード用保護済み素 材 保護済み素材コードは、ソース リポジトリを適切に引用することなく大規模言語モ デルによって出力される可能性のある、パブリック リポジトリからの一連のソース コードと一致するソース コードを記述するものです。
  3. 重大度レベル(テキスト)  憎悪(ヘイトと公平性、嫌悪) 安全(safe) コンテンツは安全ですが、次のような一般的で安全な文脈で使用されるヘイトと公平性に関連する用語が含まれる場合があります。 • 教育 • メディア •

    公式統計 • 歴史 • 薬 • 科学 • 他の同様のコンテキスト 低(low) アイデンティティ グループの肯定的な特徴付けや保護を含むコンテンツ、ヘイト スピーチやターゲット アイデンティティ グループに関連する差別、固定観 念、偏見、批判的、独断的な見解や態度を示すコンテンツ。これには、次のものが含まれます。 • 研究論文、辞書、メディアでの直接引用による中傷 • 物体、個人、またはグループを対象としたヘイトスピーチ全般 • 架空の状況 (ゲーム、映画、文学など) における限定的なヘイトスピーチまたは否定的な感情の描写 中(medium) 個人またはグループに対する侮辱、いじめ、脅迫、非人間化または軽蔑を含むコンテンツ。これには、次のものが含まれます。 • ID グループの属性を嘲笑したり模倣したりする言語 • 個人や集団を劣っている、または欠陥があると表現する • アイデンティティ グループの存在を否定または貶める行為 • ホロコースト、奴隷化、植民地化などの歴史的で十分に文書化された暴力的な出来事を否定する文章 高(high) アイデンティティ グループに対する暴力を脅迫または呼びかけるプロパガンダとしてヘイト スピーチを含むコンテンツは、過激派活動への参加やヘイト ス ピーチの拡散を過激化、勧誘、扇動するものです。これには、次のものが含まれます。 • 特定の個人またはアイデンティティ グループを対象とした扇動的、攻撃的、下品な言葉 • 差別、隔離、排除を正当化するための優位性の主張 • 歴史的、教育的、または芸術的環境以外で、ナチスと親衛隊の象徴主義、KKK、および南軍旗を何らかの形で美化する文章を含む文章 • ヘイトクライムの準備、アイデンティティグループに対する暴力の称賛や称賛、または大量虐殺を称賛、賛美、支持するテキスト
  4. 重大度レベル(テキスト)  性的 安全(safe) コンテンツは安全ですが、次のような一般的で安全な文脈で使用される性的関連用語が含まれる場合があります。 • 教育 • メディア •

    公式統計 • 歴史 • 薬 • 科学 • 家族関係や恋愛関係についての言及 低(low) 性的関連のトピックに関して偏見、批判的、または独断的な見解を表現するコンテンツ、または、あまり生々しいわけではない架空または現実世界の経験に おける性的関連用語に言及するコンテンツ。これには、次のものが含まれます。 • 架空および芸術的な文脈における性的解剖学またはセックスシーンへの言及 • 処方箋と診断 • 個人的な経験、性的問題、トラウマと、対処メカニズムやリソースを含む生々しいコンテンツ 中(medium) 性的興奮や活動を露骨かつ生々しい言葉で説明するコンテンツには、セックスや性的虐待に関する空想が含まれます。これには、次のものが含まれます。 • 性的刺激や自慰行為に関する言及 • セックス シーンのない職業として、ビジネスや売春、同伴などに限定されたポルノグラフィ • 性玩具などのアダルト商品の広告 • 性的、性愛的または扇情的なマッサージ、ストリップ クラブ、性愛ショー、BDSM の属性や実践に関する個人的な経験や記述 高(high) 性的な商業サービスへの勧誘を記述したコンテンツ。性的行為、暴力による性的虐待とレイプ、合意のない権力の交換、虐待、のぞきについての詳細な描写 が含まれるもの。 これには、過激または違法な性行為を促進、推奨、賛美するために使用される内容も含まれます。 これには次のものが含まれます • 未成年の性行為に関する明示的または潜在的な言及を含む、児童性的虐待資料 (CSAM) の描写 • チャイルド グルーミング、児童虐待、その他の児童搾取 • 近親相姦、動物性愛、屍姦などに関する明示的または潜在的な言及。 • 被害者工作などの人身売買の勧誘
  5. 重大度レベル(テキスト)  暴力 安全(safe) コンテンツは安全ですが、次のように一般的で安全なコンテキストで使用される、暴力に関連する用語が含まれる場合があります。 • 教育 • メディア •

    公式統計 • 履歴 • 医療 • 科学 • 武器として使用されなければ一般的な物品 • 狩猟または射撃スポーツと銃の技術仕様 低(low) フィクションのコンテキスト (ゲーム、文学、芸術など) において、美化、推奨、悪意なく暴力的または生々しいシーンを描写する内容。 これには次のもの が含まれます • 個人的な暴力体験 (暴力的意図がない場合) • 暴力に対するバイアスがかかった、偏見、判断、または独断的な意見の表明 • 低強度の暴力行為と死に関する言及 中(medium) 中強度の暴力や死の描写があり、暴力的な行為や脅迫に関する妄想が含まれる内容。 これには次のものが含まれます • 被害者に落ち度があると非難したり、加害者を肯定的な見方で表現したりする文章 • 大量虐殺やホロコーストに関する歴史的な言及 (美化や賛美は含まない) • 既知の銃乱射事件への言及 (美化や賛美は含まない) • テロリストや暴力的な過激派グループや出来事への言及で、美化や是認がないもの • アドバイスや推奨を求める文章、または動物、個人、団体、または個人または団体に危害を及ぼす可能性のあるオブジェクトやインフラストラクチャに 対する暴力行為の実行方法に関する手順を提供する文章 • いじめと脅迫 高(high) テロ活動の一環としての殺人を記述、賞賛、支援、承認、または賛美する、インターネット上のテロリストまたは暴力的過激派のプロパガンダや暴力的イデ オロギーなどの内容、テロ組織または思想への提供を支援する内容。 これには次のものが含まれます • テロリストや暴力的過激派グループとの関係について手順を求める文章 • 信者を勧誘する方法、テロリストの大義や過激派イデオロギーで人々に影響を与える方法、過激な意見を採用する方法、テロリストや暴力的過激派集団 の活動に関するトレーニングを提供する方法、または指導者やメンバーに関する情報を提供する方法について説明した文章 • 非戦闘員または非テロリストが行う銃撃事件、民間インフラへの爆弾や爆発物の使用、刃物による攻撃を含む、個人または団体への攻撃を計画し調整す る文章 • 児童を含む強制労働、家事労働、ストーカー行為、強制医療行為に言及する内容
  6. 重大度レベル(テキスト)  自傷行為 安全(safe) コンテンツは安全ですが、次のように一般的で安全なコンテキストで使用される、自傷に関連する用語が含まれる場合があります。 • 公式統計 • 教育 •

    メディア • 医療 • 偶発的な自傷行為、応急処置のヒントなどを記述する行為 低(low) フィクションの文脈 (文学、映画など) において、自殺を計画または実行する登場人物への言及を含む内容、または自傷行為や自殺の描写が低強度で含まれる 内容 これには次のものが含まれます • 自傷に対する個人的なバイアスがかかった、偏見、判断、または独断的な意見の表明 • 摂食障害との関連、急激で不健康な減量の手順を求め、または提供すること • 自傷行為に関する個人的な経験 (専門家による支援を求めることなど) 中(medium) 摂食障害や自殺などの自傷行為の被害者や生存者をばかにする内容や、自傷行為を扇動し、助長するいじめや脅迫。 これには次のものが含まれます • 問題の解決策として提示される自傷行為 • 自傷または自殺に関する空想、願望、希望、個人的な経験 • 自傷行為の方法に関する助言、手順、推奨を求める、または提示する文章 • 自傷行為を誘発し助長するいじめや脅迫 高(high) 死に至る自傷行為や自殺の方法に関するアドバイスや手順、方法の研究を含む内容、自殺やその他の深刻な種類の自傷行為を美化し、推奨する内容。 これに は次のものが含まれます • 家族に別れのメッセージを書く方法を指示する文章 • 自己断首 • 火炙り
  7. 重大度レベル(画像)  憎悪(ヘイトと公平性、嫌悪) 安全(safe) コンテンツは安全ですが、以下のような文脈またはそれに類似の文脈において、非差別的な非攻撃的な形で、感情を伴わない、または中立的な感情を持つよ うな、ヘイトと公平性に関連する画像が含まれている可能性があります。 • ジャーナリズム • 履歴

    • 医療 • 法的情報 • 教育 • 地理 低(low) 肯定的な感情、誤りの肯定的な感情、または否定的な偏った感情のいずれかを含むコンテンツで、アイデンティティ グループ間での差別化を行うもの。 こ のコンテンツは、感情的な反応を引き起こすことを目的としています。 これには、次のものが含まれます。 • 保護 • ナチスの象徴化、コンフェデレート旗 (南軍旗)、Ku Klux Klan の象徴化 • 固定観念の押し付け • 雇用差別 中(medium) アイデンティティ グループや他者に対する否定的な感情を含むコンテンツで、あるアイデンティティ グループに対する行動の推奨と優越感の感情につなが りるもの。 これには、次のものが含まれます。 • 侮辱、分断、あざけり • ナチスの旗、コンフェデレート旗 (南軍旗)、各種の LGBTQIA+ および関連商品 高(high) アイデンティティ グループに対する否定的な感情とヘイト スピーチを含み、ヘイト スピーチやヘイト犯罪の発生につながるコンテンツ。 これには、次のも のが含まれます。 • 人種差別 • LGBTQIA+ に対する攻撃 • 障碍者差別 • 性に基づく差別 • 美化されたナチスの象徴化、コンフェデレート旗 (南軍旗)、Ku Klux Klan の象徴化 • 暴力的なコンフェデレート旗 (南軍旗)
  8. 重大度レベル(画像)  性的 安全(safe) コンテンツは安全ですが、一般的な意味で使用される性的に関連する画像が含まれています。 これには、次のものが含まれます。 • 家族と恋愛関係 • 非性的ヌード

    • Clothing • 一般的な物品 • 非性的なポーズまたは活動 • 動物の交配 • 性的健康 低(low) 性的に示唆的な行動や行為を含むコンテンツ。 これには、次のものが含まれます。 • 個人の経験 • ファッション モデリング • 芸術におけるヌード • ボディ アート • 挑発的な展示 中(medium) 性的興奮を意図した性的なシーンに関与する、視覚的に露骨な挿入を伴わずヌードまたは半ヌードの参加者のない、商用およびアマチュアによる性愛コンテンツおよび/また はポルノコンテンツを含むコンテンツ。 これには、次のものが含まれます。 • 性的モデル • 芸術における露骨でないヌード • セックス業やセックス ショップ • ボカシの入った性行為 • ポルノ制作のバックステージ • ポールダンス 高(high) 違法行為を含む、生殖器や性的行為の明らさまで詳細な表現を含むコンテンツ。 これには、次のものが含まれます。 • アマチュアによるソフトコアとハードコアのポルノ • 性的誘惑 • のぞき • 芸術におけるセックス • 同意のない性的嗜好行為またはレイプ • 児童の性的搾取と虐待 • 子供のグルーミング • 近親相姦
  9. 重大度レベル(画像)  暴力 安全(safe) コンテンツは安全ですが、一般的な意味で使用される暴力関連の画像が含まれています。 これには、次のものが含まれます。 • 寝ている、または横たわっているポーズ • 一般的な物品

    • 非暴力活動 • 吊り輪の状態でないロープ • キッチン/縫製で使用される刃物 • 傷、傷跡および外科処置 • 狩猟および射撃スポーツ • 玩具および仮装用の銃 • 戦闘練習 • 物品の損傷と破壊行為 • ブランド化されていないテロリストの象徴化 低(low) 現実世界または架空の文脈における暴力関連の画像や行為を含む、流血の少ないコンテンツ。 これには、次のものが含まれます。 • 銃、武器、刃物の誇示および使用 • 非現実的な死体 • 非現実的な暴力 • アニメ内の武器 • 軽傷と個人的経験 • 吊り輪状態のロープ • 歴史的、教育的、または葬儀の場での死 • 非現実的なテロリスト象徴化 • 闘牛 中(medium) 特定の標的を狙った中程度の具体的描写のある暴力と暴力行為を含むコンテンツ。 これには、次のものが含まれます。 • 検死 • 犯罪や死のシーン • 動物の死 (自然死または狩猟による)、動物の生贄、動物虐待 • 奴隷 • 歴史的、教育的な環境におけるジェノサイドと大量殺害 • 屠殺場 • 家庭内暴力と身体的虐待 • いじめ • 標的に対して使用されている銃と武器 高(high) 暴力と暴力行為についての明示的で詳細な、流血の多い表現を含むコンテンツ。 これには、次のものが含まれます。 • 負傷と死亡についての露骨な記述 • 切断、断首、火炙り • 死体の分解 • テロ、テロリスト集団、テロリストの旗 • 強制労働と奴隷、強制医療処置 • ストーカー行為 • テロと戦争犯罪における死体 • 発砲事件 • その他の過激行為
  10. 重大度レベル(画像)  自傷行為 安全(safe) コンテンツは安全ですが、一般的な意味で使用される自傷関連の画像が含まれています。 これには、次のものが含まれます。 • 低体脂肪 • 自傷以外の行為

    • 偶発的な身体損傷 低(low) 現実の世界または架空の文脈における自傷行為に関連する画像や行為を含む、流血の少ないコンテンツ。 これには、次のものが含まれます。 • 傷あと • 回復中の自傷行為による負傷 • 非現実的な自傷行為 • 痩せ衰えた個人または動物 中(medium) 自傷行為や自傷行為に関連する中程度の具体的描写のある画像を含むコンテンツ。 これには、次のものが含まれます。 • 検死 • 犯罪や死のシーン • いじめ 高(high) 自傷行為と自殺の明示的な詳細な表現を含む流血の多いコンテンツ。 これには、次のものが含まれます。 • 自傷行為が切迫している状況 • 自傷行為 • 自殺
  11. コンテンツフィルターの作成  フィルターを構成します。  カテゴリの重大度しきい値を設定します。 低 低、中および高をブロック 中 低を許可、中および高をブロック 高

    低、中を許可、高をブロック フィルターなし コンテンツはフィルタリングされません。 「Azure OpenAI 制限付きアクセス レビュー」にて申 請が必要 DALL-E、GPT-4 Turbo with Vision には適用できない。 しきい値
  12. コンテンツフィルターの作成  ストリーミングモードを設定します。 比較 既定値 非同期変更フィルター 状態 GA パブリック プレビュー

    特典を受ける 条件 全顧客 修正コンテンツ フィルターの承認 を受けたお客様 有効にする方 法 既定で有効になっており、アク ションは必要ありません 修正コンテンツ フィルターの承認 を受けたお客様は、Azure OpenAI Studio でそれを直接構成できます (コンテンツ フィルタリングの構成 の一部として、適用対象はデプロ イ レベル) モダリティと 可用性 テキスト、すべての GPT モデル テキスト、gpt-4-vision を除くすべ ての GPT モデル ストリーミン グ エクスペリ エンス コンテンツがバッファーされ、 チャンク単位で返されます 待機時間ゼロ (バッファリングなし、 フィルターは非同期的に実行) コンテンツ フィルタリン グ シグナル 即時フィルタリング シグナル 遅延フィルタリング シグナル (最大 1,000 文字の増分) コンテンツ フィルタリン グの構成 既定値と任意のユーザー定義の フィルター設定をサポートしま す (オプションのモデルを含む) 既定値と任意のユーザー定義の フィルター設定をサポートします (オプションのモデルを含む)