Azure OpenAIのコンテンツフィルターを学ぶ

Azure OpenAI のコンテンツフィルターを学ぶ

自己紹介  工藤淳（）     

注意  までの情報を元に作成しています。  今回紹介するの多くの機能はプレビューを含みます。  一部、不快に感じる可能性のある有害なコンテンツの例が含まれている可能性があります。

アジェンダ  コンテンツフィルターとは  コンテンツフィルターの作成と設定  まとめ

コンテンツフィルターとは

を利用してこんな事ありませんか？お魚が欲しいのでは？

を利用してこんな事ありませんか？聞きたいことは同じでは？

コンテンツフィルターとは  には、有害なコンテンツ出力を検出し防止するためのコンテンツフィルタリングシステムが含まれています。  このシステムは、プロンプトと入力候補の両方を分析し、有害な可能性があるコンテンツを検出するために、分類モデルのアンサンブルを使用します。  入力プロンプトと入力候補の両方で有害な可能性があるコンテンツ特有のカテゴリを検出し、適切なアクションを実行します。

コンテンツフィルターの動作  入力プロンプトと（出力される）入力候補の両方で有害な可能性があるコンテンツ特有のカテゴリを検出し、適切なアクションを実行します。  の構成やアプリケーションの設計の違いが入力候補に影響を与え、フィルタリングの動作にも影響を及ぼすことがあります。入力プロンプト Azure
OpenAI 出力入力候補

対応言語  言語によって品質は異なるが多くの言語で利用できます。  英語、ドイツ語、日本語、スペイン語、フランス語、イタリア語、ポルトガル語、中国語でトレーニング、テストがされています。

コンテンツフィルター  有害なコンテンツ出力の検出と防止  カテゴリ（憎悪、性的、暴力、自傷行為）  重大度レベル（安全、低、中、高）憎悪（ヘイトと公平性、嫌悪）
ヘイトと公平性に関連する危害カテゴリは、人種、民族、国籍、性同一性と性表現、性的指向、宗教、在留資格、能力状態、容姿、体格などを含む (ただしこれらに限定せず)、これらのグループ特有の識別属性に基づいて、個人またはアイデンティティグループに関連した、軽蔑的または差別的な言葉を含む、コンテンツの使用を指します。公平性は、AI システムが既存の社会の不公平を助長することなく、すべてのグループの人々を公平に扱うことを保証することです。ヘイトスピーチと同様に、公平性関連の危害は、アイデンティティグループに対する不公平な扱いに左右されます。性的性的とは、解剖学的臓器や生殖器、恋愛関係、性愛的または情愛的な用語で描写された行為、妊娠、物理的な性的行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む)、売春、ポルノ、虐待に関連する言葉を表します。暴力暴力とは、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的な行動に関連する言葉、または武器、銃、関連エンティティ (製造業者、協会、法律など) などを表します。自傷行為自傷行為とは、故意に自分の体に苦痛を与える、傷つける、損傷を与える、または自殺を意図した物理的な行為に関連する言葉を表します。

コンテンツフィルター  追加オプションの分類モデル  カテゴリ（脱獄、保護された素材テキスト、保護された素材コード）  フィルターのOn/Off 脱獄のリスク脱獄攻撃は、システムメッセージに設定されたルールを回避または中断するように
トレーニングされた動作を生成 AI モデルに示させる目的で設計されたユーザープロンプトです。こうした攻撃は、複雑なロールプレイから安全目標の巧妙な裏切りまで、さまざまです。テキスト用保護済み素材保護済み素材テキストは、大規模言語モデルによって出力される可能性のある既知のテキストコンテンツ (曲の歌詞、記事、レシピ、一部の Web コンテンツなど) を記述するものです。＊別途テキストコンテンツの提出が必要コード用保護済み素材保護済み素材コードは、ソースリポジトリを適切に引用することなく大規模言語モデルによって出力される可能性のある、パブリックリポジトリからの一連のソースコードと一致するソースコードを記述するものです。

適用範囲  テキスト及び画像  モデルは適用されない

重大度レベル（テキスト）  憎悪（ヘイトと公平性、嫌悪）安全（safe）コンテンツは安全ですが、次のような一般的で安全な文脈で使用されるヘイトと公平性に関連する用語が含まれる場合があります。 • 教育 • メディア •
公式統計 • 歴史 • 薬 • 科学 • 他の同様のコンテキスト低（low）アイデンティティグループの肯定的な特徴付けや保護を含むコンテンツ、ヘイトスピーチやターゲットアイデンティティグループに関連する差別、固定観念、偏見、批判的、独断的な見解や態度を示すコンテンツ。これには、次のものが含まれます。 • 研究論文、辞書、メディアでの直接引用による中傷 • 物体、個人、またはグループを対象としたヘイトスピーチ全般 • 架空の状況 (ゲーム、映画、文学など) における限定的なヘイトスピーチまたは否定的な感情の描写中（medium）個人またはグループに対する侮辱、いじめ、脅迫、非人間化または軽蔑を含むコンテンツ。これには、次のものが含まれます。 • ID グループの属性を嘲笑したり模倣したりする言語 • 個人や集団を劣っている、または欠陥があると表現する • アイデンティティグループの存在を否定または貶める行為 • ホロコースト、奴隷化、植民地化などの歴史的で十分に文書化された暴力的な出来事を否定する文章高（high）アイデンティティグループに対する暴力を脅迫または呼びかけるプロパガンダとしてヘイトスピーチを含むコンテンツは、過激派活動への参加やヘイトスピーチの拡散を過激化、勧誘、扇動するものです。これには、次のものが含まれます。 • 特定の個人またはアイデンティティグループを対象とした扇動的、攻撃的、下品な言葉 • 差別、隔離、排除を正当化するための優位性の主張 • 歴史的、教育的、または芸術的環境以外で、ナチスと親衛隊の象徴主義、KKK、および南軍旗を何らかの形で美化する文章を含む文章 • ヘイトクライムの準備、アイデンティティグループに対する暴力の称賛や称賛、または大量虐殺を称賛、賛美、支持するテキスト

重大度レベル（テキスト）  性的安全（safe）コンテンツは安全ですが、次のような一般的で安全な文脈で使用される性的関連用語が含まれる場合があります。 • 教育 • メディア •
公式統計 • 歴史 • 薬 • 科学 • 家族関係や恋愛関係についての言及低（low）性的関連のトピックに関して偏見、批判的、または独断的な見解を表現するコンテンツ、または、あまり生々しいわけではない架空または現実世界の経験における性的関連用語に言及するコンテンツ。これには、次のものが含まれます。 • 架空および芸術的な文脈における性的解剖学またはセックスシーンへの言及 • 処方箋と診断 • 個人的な経験、性的問題、トラウマと、対処メカニズムやリソースを含む生々しいコンテンツ中（medium）性的興奮や活動を露骨かつ生々しい言葉で説明するコンテンツには、セックスや性的虐待に関する空想が含まれます。これには、次のものが含まれます。 • 性的刺激や自慰行為に関する言及 • セックスシーンのない職業として、ビジネスや売春、同伴などに限定されたポルノグラフィ • 性玩具などのアダルト商品の広告 • 性的、性愛的または扇情的なマッサージ、ストリップクラブ、性愛ショー、BDSM の属性や実践に関する個人的な経験や記述高（high）性的な商業サービスへの勧誘を記述したコンテンツ。性的行為、暴力による性的虐待とレイプ、合意のない権力の交換、虐待、のぞきについての詳細な描写が含まれるもの。これには、過激または違法な性行為を促進、推奨、賛美するために使用される内容も含まれます。これには次のものが含まれます • 未成年の性行為に関する明示的または潜在的な言及を含む、児童性的虐待資料 (CSAM) の描写 • チャイルドグルーミング、児童虐待、その他の児童搾取 • 近親相姦、動物性愛、屍姦などに関する明示的または潜在的な言及。 • 被害者工作などの人身売買の勧誘

重大度レベル（テキスト）  暴力安全（safe）コンテンツは安全ですが、次のように一般的で安全なコンテキストで使用される、暴力に関連する用語が含まれる場合があります。 • 教育 • メディア •
公式統計 • 履歴 • 医療 • 科学 • 武器として使用されなければ一般的な物品 • 狩猟または射撃スポーツと銃の技術仕様低（low）フィクションのコンテキスト (ゲーム、文学、芸術など) において、美化、推奨、悪意なく暴力的または生々しいシーンを描写する内容。これには次のものが含まれます • 個人的な暴力体験 (暴力的意図がない場合) • 暴力に対するバイアスがかかった、偏見、判断、または独断的な意見の表明 • 低強度の暴力行為と死に関する言及中（medium）中強度の暴力や死の描写があり、暴力的な行為や脅迫に関する妄想が含まれる内容。これには次のものが含まれます • 被害者に落ち度があると非難したり、加害者を肯定的な見方で表現したりする文章 • 大量虐殺やホロコーストに関する歴史的な言及 (美化や賛美は含まない) • 既知の銃乱射事件への言及 (美化や賛美は含まない) • テロリストや暴力的な過激派グループや出来事への言及で、美化や是認がないもの • アドバイスや推奨を求める文章、または動物、個人、団体、または個人または団体に危害を及ぼす可能性のあるオブジェクトやインフラストラクチャに対する暴力行為の実行方法に関する手順を提供する文章 • いじめと脅迫高（high）テロ活動の一環としての殺人を記述、賞賛、支援、承認、または賛美する、インターネット上のテロリストまたは暴力的過激派のプロパガンダや暴力的イデオロギーなどの内容、テロ組織または思想への提供を支援する内容。これには次のものが含まれます • テロリストや暴力的過激派グループとの関係について手順を求める文章 • 信者を勧誘する方法、テロリストの大義や過激派イデオロギーで人々に影響を与える方法、過激な意見を採用する方法、テロリストや暴力的過激派集団の活動に関するトレーニングを提供する方法、または指導者やメンバーに関する情報を提供する方法について説明した文章 • 非戦闘員または非テロリストが行う銃撃事件、民間インフラへの爆弾や爆発物の使用、刃物による攻撃を含む、個人または団体への攻撃を計画し調整する文章 • 児童を含む強制労働、家事労働、ストーカー行為、強制医療行為に言及する内容

重大度レベル（テキスト）  自傷行為安全（safe）コンテンツは安全ですが、次のように一般的で安全なコンテキストで使用される、自傷に関連する用語が含まれる場合があります。 • 公式統計 • 教育 •
メディア • 医療 • 偶発的な自傷行為、応急処置のヒントなどを記述する行為低（low）フィクションの文脈 (文学、映画など) において、自殺を計画または実行する登場人物への言及を含む内容、または自傷行為や自殺の描写が低強度で含まれる内容これには次のものが含まれます • 自傷に対する個人的なバイアスがかかった、偏見、判断、または独断的な意見の表明 • 摂食障害との関連、急激で不健康な減量の手順を求め、または提供すること • 自傷行為に関する個人的な経験 (専門家による支援を求めることなど) 中（medium）摂食障害や自殺などの自傷行為の被害者や生存者をばかにする内容や、自傷行為を扇動し、助長するいじめや脅迫。これには次のものが含まれます • 問題の解決策として提示される自傷行為 • 自傷または自殺に関する空想、願望、希望、個人的な経験 • 自傷行為の方法に関する助言、手順、推奨を求める、または提示する文章 • 自傷行為を誘発し助長するいじめや脅迫高（high）死に至る自傷行為や自殺の方法に関するアドバイスや手順、方法の研究を含む内容、自殺やその他の深刻な種類の自傷行為を美化し、推奨する内容。これには次のものが含まれます • 家族に別れのメッセージを書く方法を指示する文章 • 自己断首 • 火炙り

重大度レベル（画像）  憎悪（ヘイトと公平性、嫌悪）安全（safe）コンテンツは安全ですが、以下のような文脈またはそれに類似の文脈において、非差別的な非攻撃的な形で、感情を伴わない、または中立的な感情を持つような、ヘイトと公平性に関連する画像が含まれている可能性があります。 • ジャーナリズム • 履歴
• 医療 • 法的情報 • 教育 • 地理低（low）肯定的な感情、誤りの肯定的な感情、または否定的な偏った感情のいずれかを含むコンテンツで、アイデンティティグループ間での差別化を行うもの。このコンテンツは、感情的な反応を引き起こすことを目的としています。これには、次のものが含まれます。 • 保護 • ナチスの象徴化、コンフェデレート旗 (南軍旗)、Ku Klux Klan の象徴化 • 固定観念の押し付け • 雇用差別中（medium）アイデンティティグループや他者に対する否定的な感情を含むコンテンツで、あるアイデンティティグループに対する行動の推奨と優越感の感情につながりるもの。これには、次のものが含まれます。 • 侮辱、分断、あざけり • ナチスの旗、コンフェデレート旗 (南軍旗)、各種の LGBTQIA+ および関連商品高（high）アイデンティティグループに対する否定的な感情とヘイトスピーチを含み、ヘイトスピーチやヘイト犯罪の発生につながるコンテンツ。これには、次のものが含まれます。 • 人種差別 • LGBTQIA+ に対する攻撃 • 障碍者差別 • 性に基づく差別 • 美化されたナチスの象徴化、コンフェデレート旗 (南軍旗)、Ku Klux Klan の象徴化 • 暴力的なコンフェデレート旗 (南軍旗)

重大度レベル（画像）  性的安全（safe）コンテンツは安全ですが、一般的な意味で使用される性的に関連する画像が含まれています。これには、次のものが含まれます。 • 家族と恋愛関係 • 非性的ヌード
• Clothing • 一般的な物品 • 非性的なポーズまたは活動 • 動物の交配 • 性的健康低（low）性的に示唆的な行動や行為を含むコンテンツ。これには、次のものが含まれます。 • 個人の経験 • ファッションモデリング • 芸術におけるヌード • ボディアート • 挑発的な展示中（medium）性的興奮を意図した性的なシーンに関与する、視覚的に露骨な挿入を伴わずヌードまたは半ヌードの参加者のない、商用およびアマチュアによる性愛コンテンツおよび/またはポルノコンテンツを含むコンテンツ。これには、次のものが含まれます。 • 性的モデル • 芸術における露骨でないヌード • セックス業やセックスショップ • ボカシの入った性行為 • ポルノ制作のバックステージ • ポールダンス高（high）違法行為を含む、生殖器や性的行為の明らさまで詳細な表現を含むコンテンツ。これには、次のものが含まれます。 • アマチュアによるソフトコアとハードコアのポルノ • 性的誘惑 • のぞき • 芸術におけるセックス • 同意のない性的嗜好行為またはレイプ • 児童の性的搾取と虐待 • 子供のグルーミング • 近親相姦

重大度レベル（画像）  暴力安全（safe）コンテンツは安全ですが、一般的な意味で使用される暴力関連の画像が含まれています。これには、次のものが含まれます。 • 寝ている、または横たわっているポーズ • 一般的な物品
• 非暴力活動 • 吊り輪の状態でないロープ • キッチン/縫製で使用される刃物 • 傷、傷跡および外科処置 • 狩猟および射撃スポーツ • 玩具および仮装用の銃 • 戦闘練習 • 物品の損傷と破壊行為 • ブランド化されていないテロリストの象徴化低（low）現実世界または架空の文脈における暴力関連の画像や行為を含む、流血の少ないコンテンツ。これには、次のものが含まれます。 • 銃、武器、刃物の誇示および使用 • 非現実的な死体 • 非現実的な暴力 • アニメ内の武器 • 軽傷と個人的経験 • 吊り輪状態のロープ • 歴史的、教育的、または葬儀の場での死 • 非現実的なテロリスト象徴化 • 闘牛中（medium）特定の標的を狙った中程度の具体的描写のある暴力と暴力行為を含むコンテンツ。これには、次のものが含まれます。 • 検死 • 犯罪や死のシーン • 動物の死 (自然死または狩猟による)、動物の生贄、動物虐待 • 奴隷 • 歴史的、教育的な環境におけるジェノサイドと大量殺害 • 屠殺場 • 家庭内暴力と身体的虐待 • いじめ • 標的に対して使用されている銃と武器高（high）暴力と暴力行為についての明示的で詳細な、流血の多い表現を含むコンテンツ。これには、次のものが含まれます。 • 負傷と死亡についての露骨な記述 • 切断、断首、火炙り • 死体の分解 • テロ、テロリスト集団、テロリストの旗 • 強制労働と奴隷、強制医療処置 • ストーカー行為 • テロと戦争犯罪における死体 • 発砲事件 • その他の過激行為

重大度レベル（画像）  自傷行為安全（safe）コンテンツは安全ですが、一般的な意味で使用される自傷関連の画像が含まれています。これには、次のものが含まれます。 • 低体脂肪 • 自傷以外の行為
• 偶発的な身体損傷低（low）現実の世界または架空の文脈における自傷行為に関連する画像や行為を含む、流血の少ないコンテンツ。これには、次のものが含まれます。 • 傷あと • 回復中の自傷行為による負傷 • 非現実的な自傷行為 • 痩せ衰えた個人または動物中（medium）自傷行為や自傷行為に関連する中程度の具体的描写のある画像を含むコンテンツ。これには、次のものが含まれます。 • 検死 • 犯罪や死のシーン • いじめ高（high）自傷行為と自殺の明示的な詳細な表現を含む流血の多いコンテンツ。これには、次のものが含まれます。 • 自傷行為が切迫している状況 • 自傷行為 • 自殺

ブロックリスト  用語を登録しブロックできます。  正規表現が利用できます。マイクロソフトを正規表現として登録した場合

コンテンツフィルターの作成と設定

コンテンツフィルターの作成と適用  デプロイされたモデルに適用されます。  コンテンツフィルターにブロックリストを設定します。モデルデプロイコンテンツフィルターブロック
リスト

コンテンツフィルターの作成  設定はで行います。

コンテンツフィルターの作成  フィルターを構成します。  カテゴリの重大度しきい値を設定します。低低、中および高をブロック中低を許可、中および高をブロック高
低、中を許可、高をブロックフィルターなしコンテンツはフィルタリングされません。「Azure OpenAI 制限付きアクセスレビュー」にて申請が必要 DALL-E、GPT-4 Turbo with Vision には適用できない。しきい値

コンテンツフィルターの作成  追加モデルを設定します。

コンテンツフィルターの作成  ブロックリストの追加を行います。

コンテンツフィルターの作成  ストリーミングモードを設定します。比較既定値非同期変更フィルター状態 GA パブリックプレビュー
特典を受ける条件全顧客修正コンテンツフィルターの承認を受けたお客様有効にする方法既定で有効になっており、アクションは必要ありません修正コンテンツフィルターの承認を受けたお客様は、Azure OpenAI Studio でそれを直接構成できます (コンテンツフィルタリングの構成の一部として、適用対象はデプロイレベル) モダリティと可用性テキスト、すべての GPT モデルテキスト、gpt-4-vision を除くすべての GPT モデルストリーミングエクスペリエンスコンテンツがバッファーされ、チャンク単位で返されます待機時間ゼロ (バッファリングなし、フィルターは非同期的に実行) コンテンツフィルタリングシグナル即時フィルタリングシグナル遅延フィルタリングシグナル (最大 1,000 文字の増分) コンテンツフィルタリングの構成既定値と任意のユーザー定義のフィルター設定をサポートします (オプションのモデルを含む) 既定値と任意のユーザー定義のフィルター設定をサポートします (オプションのモデルを含む)

コンテンツフィルターの適用  デプロイされたモデルに適用します。

動作確認  プレイグラウンドで確認します。適用前適用後

まとめ  コンテンツフィルターでできる事  重大度レベル  カテゴリ  コンテンツフィルターの作成と設定 
提供するコンテンツ、サービスに合わせて継続した調整

ご清聴ありがとうございました

Azure OpenAIのコンテンツフィルターを学ぶ

Azure OpenAIのコンテンツフィルターを学ぶ

Jun Kudo

More Decks by Jun Kudo

Other Decks in Technology

Featured

Transcript