Slide 1

Slide 1 text

Azure OpenAI Service を使う際の選択肢 Provisioned について Microsoft Global Black Belt AI

Slide 2

Slide 2 text

目次 デプロイメントの 選択肢 PTUをうまく使う 方法 購入、キャンセルに 関する注意事項

Slide 3

Slide 3 text

これまで以上にパーソナライズされたスマートなアプリ フルスタック開発環境の統合 モデルのカスタマイズ デプロイの柔軟性 エンタープライズ対応のイノベーション デザインによる信頼性 マルチモーダル生成AI Azure OpenAI Service 大規模な優れたイノベーションと信頼性 顧客体験の向上 データレジデンシー、組み込みのセキュリティ、責任あるAI Azure での OpenAI モデルの同日提供 従量課金またはプロビジョニングされたスループット、 グローバル、データゾーンまたはリージョナル展開 テキスト、オーディオ、ビジョンモデルによるイノベーション Azure AI、アプリ、データ、インフラ+ GitHub間の統合 Fine Tuning、RAGなどのための完全な開発者ツールチェーン

Slide 4

Slide 4 text

Azure OpenAI Service の提供オプション サービス Azure OpenAI Service オファー デプロイメント 方法 Global Data Zones NEW Standard (従量課金) Global Data Zones Regional NEW Regional Batch (バッチ処理) Global Data Zones NEW Provisioned (PTU)

Slide 5

Slide 5 text

Azure OpenAI Service の提供方法について Standard Provisioned Batch • ほとんどのユースケースに最適 • 予測可能かつ、高いスループットによる 簡単かつ安定したアクセス • 大量のデータを低コストで処理 • 簡単に始めることができ、本番環境に スムーズに移行できます • 大規模で一貫したボリュームの リアルタイム処理 • さまざまなワークロードに対応できる 拡張性 • 低規模から中規模の導入に適した コスト効率 • 大規模な導入に適したコスト効率 • 大規模な導入に適したコスト効率 G O O D F O R : ✓ 運用ワークロード ✓ 開発とテスト ✓ プロトタイピングと概念実証 R E C O M M E N D E D F O R : ✓ 運用ワークロード ✓ 大量のデータ処理 ✓ スループットの高いワークロード ✓ 最小限のレイテンシでリアルタイムな アプリケーション R E C O M M E N D E D F O R : ✓ 大規模なデータ処理 ✓ 大量のコンテンツを生成する データを 大規模に変換する ✓ LLMモデルを評価し、包括的な パフォーマンスを評価

Slide 6

Slide 6 text

あなたに適したデプロイメント方法の選択肢 Global Data Zone Regional • 最高のスループットで最低価格 • 地理的境界内のリージョン間負荷分 散 (米国または EU) • 特定のデータ処理 • 最も幅広いモデルの可用性 • より広範囲なモデルの可用性 • 特定のモデルで利用可能 • 最も広範な容量の可用性 • より広範囲な容量の可用性 • 容量の可用性が限定的 B E S T F O R : ✓ 複数のリージョン間で一貫したエクスペ リエンスを必要とするアプリケーション ✓ 低遅延でグローバルに利用可能である 必要があるサービス ✓ コスト削減が優先事項 ✓ デプロイメントに依存しない データ所在地 B E S T F O R : ✓ データ所在地が必要な、より多くの処 理能力を必要とするアプリケーション ✓ コンプライアンス要件を満たすことによる コスト削減 ✓ 最新のAIモデルとイノベーションへの最 適なアクセス B E S T F O R : ✓ データ所在地のコンプライアンスを グローバルに低レイテンシで満たすために 必要なアプリケーション ✓ レイテンシーを短縮するためにエンドユー ザーに近づける必要があるサービス ✓ ローカライズされたデータ処理とストレージ を必要とするアプリケーション

Slide 7

Slide 7 text

Provisioned Throughput とは? PTU は大容量または低レイテンシが求められる ワークロードを実行するために、モデルの処理能 力を事前予約できるようにする機能です。 予約された処理容量は、プロンプト・ Completion・同時 API リクエスト数などの一 貫した特性を持つワークロードに対して、一貫し たレイテンシーとスループットを提供します。 処理能力は「Provisioned Throughput Unit (通称: PTU)」と呼ばれる単位で定義さ れ、毎月のコミットメントに基づいて購入されま す。 購入後、お客様は PTU を使用して、コミットメ ント期間中にGPT-4o または GPT-4o mini の モデルのプロビジョニングされた Azure OpenAI Service を作成することができます。

Slide 8

Slide 8 text

予測可能な パフォーマンス Provisioned Throughput を活用するメリット 大規模な利用が見込まれる本番運用に最適 コスト 最適化 処理容量の 事前予約 安定したレイテンシーと スループット 需要に見合った 処理能力の確保 トークン量に基づいた従量課金 と比較したコスト削減 • Provisioned Throughput Units (PTUs) は、プロンプトの処理と出力の生成のために予約されたモデルの処理能力です。 • より強力なモデルはより多くの処理能力を必要とするため、実行には多くの PTU が必要になります。 • PTU あたりの1分あたりのトークン (TPM) は、ワークロードによって異なります。 • Azure OpenAI Service は、シナリオの特性に基づいてデプロイのサイジングを支援するための計算ツールを提供しています。

Slide 9

Slide 9 text

Provisioned Throughput の購入 • PTUs は毎月のコミットメントとしてご購入頂けます。 • コミットされた PTU はお客様のために予約・確保されます。 • ご請求は購入日の1カ月前に前払いとなります。 • PTUs は月の途中で追加することが可能ですが、減らすことはできません。 • コミットメントが更新されない場合、デプロイされた PTUs は1時間あたりの超過料金として請求さ れます。

Slide 10

Slide 10 text

東日本リージョンでPTUを利用可能なモデル 2025/5/27 時点 東日本リージョン Azure OpenAI in Azure AI Foundry Models provisioned throughput - Azure AI services | Microsoft Learn Provisioned Global Regional Provisioned

Slide 11

Slide 11 text

Provisioned Managed セルフサービス購入により、 導入を迅速化 プロビジョニングされたセルフサービスのクォータ管理: • ユーザーフレンドリーなフォームによる簡単なクォータリクエスト • 迅速な自動承認プロセスにより、導入を迅速化 柔軟なモデル使用: • クォータは任意のモデル/バージョンに使用でき、柔軟性が向上します • アクセスを容易にするために、サポートされているすべてのリージョンに既定のクォータが割り当 てられます リアルタイムの容量に関する洞察: • 地域サービス容量への透明性の高いアクセスにより、より良い計画を立てることができます。 • ガイド付きデプロイ エクスペリエンスでは、容量がいっぱいの場合に代替リージョンが提供され ます 新しい予約モデルを組み込む: • 月間および年額のコミットメントの割引 Azure 予約 • 時間単位の請求のオプションであり、ワークロードのテストと移行を簡素化するためのコミットメ ントはありません

Slide 12

Slide 12 text

初期の購入数が少ないため、簡単に始めることが可能に Provisioned デプロイの種類とモデルごとの最小購入単位/増分購入単位 o3-mini 15 5 15 5 15 5 25 25 o1 15 5 15 5 15 5 25 50 GPT 4.1 15 5 15 5 15 5 50 50 GPT 4.1 mini 15 5 15 5 15 5 25 25 GPT 4o 15 5 15 5 15 5 50 50 GPT 4o mini 15 5 15 5 15 5 25 25 Model Global 最小 増分 Data Zone EU 最小 US 増分 Regional 最小 増分 最小 増分 最小 増分 最小 増分 ※単位: PTU Understanding costs associated with provisioned throughput units (PTU) - Azure AI services | Microsoft Learn

Slide 13

Slide 13 text

Azure Reservations によるコスト削減 時間単位PTU (1PTUあたり) 1ヶ月・予約 /月額 (1PTUあたり) 1年・予約 /月額 (1PTUあたり) $1.00 $260 $221 $1.10 $260 $221 $2.00 $260 $221 *Changes この価格は2024年11月1日より適用されます。より詳細な価格設定については、Azure OpenAI Service Pricing. Global Data Zone USA&EU* Data Zone Regional

Slide 14

Slide 14 text

PTUの試算方法 簡易計算式を利用 Azure OpenAI Service の[クオータ]→[Azure OpenAI Provisioned] → [容量計算ツール] にて試算可能:もしくは Azure OpenAI 容量計算ツール から • モデル:使う予定の OpenAI モデル • バージョン:使う予定のモデルのバージョン • Peak calls per min:1分間のCallされる回数 • Token in prompt call: 1分間の入力トーク数 • Image input tokens:1分間の画像入力トーク数 ※利用しない際は 0 として入力すること • Tokens in Model response: 1分間の出力トークン数 試算ツールを利用 gpt-4o, 2024-05-13 & gpt-4o, 2024-08-06 gpt-4o-mini、2024- 07-18 デプロイ可能な増分 50 25 PTU あたりの入力 TPM 2,500 37,000 PTU あたりの出力 TPM 833 12,333 • デプロイにおけるTPMは、入力および出力トークン数の相関関係に基づきます。 出力トークンが多いほど、TPMは低くなるが、サービスが動的にコストバランスを 調整するため、特定の制限をユーザーが設定する必要はありません。 • GPT-4o/miniについて、PTUごとのTPMの概要を提示します。 Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn

Slide 15

Slide 15 text

Provisioned の最小導入金額を試算してみる 月額のAzure予約をして、1PTU = $260 = 37,700円 ($1=145円) とした場合 o3-mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 94万2500円 o1 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 50 188万5000円 GPT 4.1 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 50 188万5000円 50 188万5000円 GPT 4.1 mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 94万2500円 GPT 4o 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 50 188万5000円 50 188万5000円 GPT 4o mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 97万5000円 *Note retirement dates for legacy models: Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn. Model Global 最小 増分 Data Zone EU 最小 US 増分 Regional 最小 増分 最小 増分 最小 増分 最小 増分 ※ 単位 PTU

Slide 16

Slide 16 text

シームレススケールのためのPTU Spillover の紹介 利点 ➢ No 429 Errors: スパイク中でもシームレス ➢ コストの最適化:オーバープロビジョニングを伴わな い適切なサイズのPTU ➢ 自動スケーリング: ハンズフリーのトラフィック処理 ➢ データ ゾーンのすべてのモデルと、グローバル PT デプロイで使用できます。 PTU が容量に達すると、トラフィックを PAYG エンドポイントに自動的にリダイレクトし、 中断を防ぎます。 仕組み 1. PAYG スピルオーバー デプロイの設定 2. 有効にする方法を選択する o デフォルトでオンにする(推奨) o 特定のリクエストのみにヘッダーを設定する 3. PTU が容量に達すると、トラフィックはリダイレクトさ れます 4. リクエストは失敗なく処理されます 5. Azure Monitor を使用してスピルオーバー要求を 追跡する パブリック プレビュー この機能をより詳細に有効にする方法については、 プロビジョニングされたデプロイのスピルオーバーを使用してトラフィックを管理する - Azure AI サービス |マイクロソフト ラーン

Slide 17

Slide 17 text

プロビジョニングされた デプロイメントの モニタリング • 一元化されたダッシュボード: AI Foundry AOAI Resource View と AOAI Azure ポータル。 • PTU に固有のビュー : 使用量、使用率、待機時間を 表示し、コストを最適化します。 • 新しいメトリクス:最後のバイトまでの時間、キャッシュトー クン、最初のバイトまでの時間、1秒あたりのトークン数、 オーディオトークンなど。 • 診断ログ: "Azure OpenAI 要求応答ログ" と呼ばれる 新しいカテゴリには、生成されたトークンと完了したトーク ン、およびさまざまな待機時間の測定値が表示されます

Slide 18

Slide 18 text

プロビジョニングされた予約 コスト削減の達成 自分の条件でコミットする コストの合理化 管理 プロビジョニングされた予約の節約 最大割引 70%* $0.3028/時間** $221/月または $2,652/年 *70% の節約は、GPT-4o Global のプロビジョニング スループットの時間単価が約 1 ドル/時間であるのに対し、1 年間の予約の割引料金は約 0.3028 ドル/時間に基づいています。2025 年 1 月 1 日時点の Azure の価 格 (価格は変更される場合があります。実際の節約額は、特定の大規模言語モデルと利用可能な地域によって異なる場合があります。 **月の時間単価は、月の日数に基づいて変更される場合があります $0.356/時間** 1時間あた り1ドル $260/月 1ヶ月の予約 PTU/時間 1年間の予約 サンプル価格は、時間あたりのコストを比較したものです。このサンプル シナリオは、プレゼンテーション専用です。

Slide 19

Slide 19 text

コスト削減の達成 Azure OpenAI Service のプロビジョニング済み予約にコミットすると、大幅な 節約が可能になります • Azure OpenAI サービスで時間単位の料金と比較して最大 70% 節約 • 明確な初期費用構造を備えた従量課金制モデルの予測不可能性から脱却す る • 前払いと月単位の予約の合計費用は同じで、月払いまたは1年払いを選択した 場合、追加料金はかかりません

Slide 20

Slide 20 text

自分の条件でコミットする Azure OpenAI Service のプロビジョニングされた予約は、 ビジネス イニシアチブと実際の使用状況に基づいてコミットします。 • 過去または予測された使用量に基づくカスタムレコメンデーションに基づいて、何を 購入すべきかを自信を持って把握できます。 • 1か月または1年の期間を利用して、予算目標をサポートします。 • 注文を自動的に更新して、節約を維持し、予期しないコストを回避します。

Slide 21

Slide 21 text

コスト管理の合理化 プロビジョニングされた予約の購入と管理は、いくつかの 簡単な手順で行うことができます。 • 削減額は、購入したリージョンと予約スコープ内の一致するデプロイの種類 (リー ジョン、グローバル、またはデータ ゾーン) に自動的に適用されます。 • プロビジョニングされた予約はモデル固有ではなく、 デプロイの種類内のすべてのモ デルが対象となります。 • 1 つの予約は、1 つのサブスクリプション内またはサブスクリプション間で プロビジョ ニングされた使用量もカバーします。

Slide 22

Slide 22 text

Azure OpenAI Serviceを利用してみよう 最適な Azure OpenAI Service モデルを評価する aka.ms/aoailatest 要件とデプロイの種類を決定する aka.ms/aoaideployments 今すぐコスト削減を活用してみよう aka.ms/aoaipturi

Slide 23

Slide 23 text

PTU ベストプラクティス

Slide 24

Slide 24 text

実装計画 API Management の柔軟性 デプロイに APIM を追加すると、複数の利点がある 1. 複数のユースケースでエンドポイントを再利用し、ユースケース ごとにリダイレクト 2. 特定のアプリケーションまたはユーザーからのトラフィックに優先 順位を付ける 3. アプリケーションを最適化するための再試行ロジックの実装 4. 社内のチャージバックを実装する Learn more via these GitHub Repo: • Azure/aoai-apim: Scaling AOAI using APIM, PTUs and TPMs (github.com) • Azure-Samples/private-openai-with-apim-for-chargeback: Open AI with Private Endpoints behind APIM and functionality to get tokens consumption for each consumer (github.com) Azure-Samples/AI-Gateway: APIM OpenAI - this repo contains a set of experiments on using GenAI capabilities of Azure API Management with Azure OpenAI and other services オススメの GitHub Repo

Slide 25

Slide 25 text

実装計画 コストとスケールの弾力性 Provisioned plus Standard でワーク ロードのサイズを適切に設定する方法 オプションの最適な組み合わせを選択するには、 下記の事項を検討してみてください。 1. ワークロードのトラフィックパターンはどのようなものか? • そのトラフィックはどの程度広く分散されているか • トラフィックのピーク時間は何時ですか?現状の従量課金のログを参照 2. このプロセスの現在の全体的な予算/支出はどれくらいか? • 現在のプロセスの総コスト:Azure OpenAI Serviceのコストを参照 • プロセス全体の節約目標 3. プロビジョニング済み容量を共有できる他のユースケース • 他のタイムゾーンにも同様のニーズと、別の時間帯にピークがあるケース • コアの利用時間外で、リアルタイム処理がバッチの使用を夜間に実施する Learn more via this blog: Right-size your PTU deployment and save big (microsoft.com)

Slide 26

Slide 26 text

実装計画 トラフィックのコントロール 0AM 6AM 12PM 18PM 0AM 100% 0AM 6AM 12PM 18PM 0AM 100% 0AM 6AM 12PM 18PM 0AM 方法1 レート制御 100% 95% • レート制御ができるお客様向き • PTUを最大限活用 • 実施難度が高い • レイテンシーをやや損ねる 方法2 リトライ 方法3 PAYGへ誘導 • 不定期的なスパイク向き • 実施が容易 • レイテンシーをやや損ねる • コストセンシティブなお客様向き • TPM上限値が必要な量よりやや 下回る場合に適す • レイテンシーがかなり上がる

Slide 27

Slide 27 text

実装計画 信頼性とセキュリティのための優れた設計 ベスト プラクティスのランディング ゾーンを実装し て、Gen AI 実装の回復力、冗長性、セキュリ ティのニーズを満たすようにします。 また、このガイダンスは、Azure AI Search や Azure Machine Learning (PromptFlow) な どの重要なサービスを含むように拡張され、完 全に機能する Gen AI のユース ケースを構築し ます。 Learn more via these docs: • Azure Well-Architected Framework perspective on Azure OpenAI - Microsoft Azure Well-Architected Framework | Microsoft Learn • Baseline OpenAI end-to-end chat reference architecture - Azure Reference Architectures | Microsoft Learn)

Slide 28

Slide 28 text

仕組み 購入と使用

Slide 29

Slide 29 text

Azure OpenAI Self Service オンボードステップ https://oai.azure.com Azure OpenAIデプロイ用のサブスクリプションを準備 クォータのチェック •PTUに対するクォータの確認 https://oai.azure.com Azure OpenAIリソースの作成 •新しいリソースの作成(必要な場合) プロビジョニングされたデプロイメントの作成 •リージョン、モデル/バージョンの選択 •AI Studioを使用して最初のデプロイを作成する Azureの予約を購入する •コミットメント期間を選択することで、長期使用の大幅な割引を適用

Slide 30

Slide 30 text

プロビジョニングされたスループットデプ ロイの作成 – Step 1 Step 1: プロビジョニングされたデプロイを作成するには、ま ず Azure OpenAI Service リソースでデプロ イ ダイアログを呼び出し、モデル カタログから目的 のモデルを選択します。

Slide 31

Slide 31 text

プロビジョニングされたスループッ トデプロイの作成 - Step 2 Step 2: モデルを選択すると、デプロイダイアログが表 示されます。

Slide 32

Slide 32 text

プロビジョニングされたスループットデプロイの作成 - Step 3 Step 3: 次のように入力します。  デプロイ名  モデルバージョン  デプロイの種類  デプロイする PTU の数  コンテンツ フィルター設定 クォータと容量の可用性:  プロビジョニングされたスループット サービス容量は、お客様の需要に基 づいて動的に変動します。  デプロイメントを作成するには、使用可能なクォータとサービス容量の両 方が必要です。  リージョンが要求された数の PTU をサポートできない場合、Studio は、 目的のモデルで使用可能なクォータと容量を持つ他のリージョンの一 覧を提供します。  その他のオプションには、PTU の数を減らす、新しいモデルを選択する、 別の時間にデプロイを再試行するなどがあります。

Slide 33

Slide 33 text

プロビジョニングされたスループットクォータの表示 使用可能なプロビジョニング済みスループ ット クォータ (PTU) を表示するには、AI Studio の [クォータ] ブレードの [Azure OpenAI Service プロビジョニング済み] タブに移動します。 ビューには、選択したリージョンの PTU 制 限と使用量が表示されます。クォータ名を 展開すると、クォータを使用してリージョン 内のデプロイが表示されます。

Slide 34

Slide 34 text

予約の仕組み 予約は請求割引を提供し、リソースの実行状 態に影響を与えません。  予約に関連付けられた割引は、指定したリージョンのデプロイタ イプ*に自動的に適用されます。  割引は「使うか失うか」です。一致するリソースがどの時間にも ない場合、その時間の予約数量は失われます。  予約金額を超えた使用量は、時間単位の料金で請求されま す。  プロビジョニングされた予約はデプロイではありません。 *グローバル、Data Zone、およびリージョンのデプロイの予約は互換性がありません。デプロイの種 類ごとに個別の予約を購入する必要があります。

Slide 35

Slide 35 text

プロビジョニングされた予約を購入する方法 Azure Reservations は、Azure portal から地域単位で購入でき、デプロイのグループ からの使用をカバーするように柔軟にスコープを設定できます。  Azure Portal の予約ブレードを使用する  対象とする Azure のリージョン、数量、デプロイの種類を選択します  Azure OpenAI Service SKU (グローバル、データ ゾーン、またはリージョン) をカートに追加します  購入するプロビジョニング済みスループット ユニットの数量を確認し、注文を完了します 購入デモを見る

Slide 36

Slide 36 text

容量とコストの見積もり 役立つツールには、次のようなも のがあります  Azure AI Foundry の容量計算ツールを使用して、ワークロードに必要な PTU を見積もりま す  Azure 料金計算ツールを使用してコストを比較する  Azure Advisor での予約に関する推奨事項を見つける  Microsoft Cost Management での支出の計画、設定、割り当て

Slide 37

Slide 37 text

シナリオ例 100 Global Reservations 購入 ▲ 20 Global PTUs (時間単位料金で 請求) ▼ 100のグローバルPTU 予約でカバー より低価格で • 米国西部に100のグローバルPTUを展開 • 米国西部で 100 のグローバル プロビジョニングされた予約を購入 • 予約は、米国西部の100のグローバルPTUに適用されます • 米国西部に 20 のグローバル PTU を追加でデプロイします • 米国西部にあるこれらの 20 のグローバル PTU は、時間単位で課金されます 価格は説明のみを目的としています。 1時間あたり

Slide 38

Slide 38 text

プロビジョニングされた予約のベストプラクティス デプロイの作成後に予約 を購入します 自動更新の設定と日付を確認する グローバル、Data Zone、およびリージョンのデプロイメントの 予約は互換性がないことに注意してくださ い。デプロイの種類ごとに個別の予約を購入する必要があります。 Azure ポータルを使用して予約の使用状況を監視し、想定している使用量を受け取っていることを確 認します Microsoft Cost Management で未使用のコミットメントや請求超過などの条件に関する使用率ア ラートを設定して使用する

Slide 39

Slide 39 text

PTU 購入の際の注意点

Slide 40

Slide 40 text

Provisioned Managed を購入する際の注意 • Provisioned Managed を作成後は、すぐにAzure予約を行う • Azure予約から購入するは推奨しない。というのも、Azure予約でディスカウント適用済みのPTU数量を 購入したとしても、デプロイメント時に以下の理由で利用でデプロイできず、無駄な購入となることがある。 1. PTUのクオータがなく、モデルをデプロイすることができない。 2. Azure側でリージョンのキャパシティーの制約により、モデルをデプロイすることができない。 • 任意: Provisioned Managed のデプロイメントの作成できる人の権限を絞る • Azure サブスクリプションで Provisioned のデプロイメントを作成できないように制限する必要がある場合は、 Azure Policy により利用可能なデプロイの種類を限定できます。 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn Azure OpenAI ServiceのProvisionedデプロイについて | Japan Cognitive Services Support Blog

Slide 41

Slide 41 text

Provisioned Managed を減数・解約する際の注意 • Provisioned Managedを解約し、従量課金へ移行したい場合 • Azure 予約をしている際は、自動更新をオフにする。 • Azure 予約が解除される前に、つまり、Provisioned Managedが時間課金になる前に デプロイメント(モデル)を削除する。その際、モデルを残したままリソースごと削除しないこと。 ※ サービス利用有無にかかわらず、モデルをデプロイしている間は時間課金となるため。 • Provisioned Managed のPTU数量を減らしたいとき • Azure 予約の自動更新をオフにする。 • (a) Azure 予約が解約された後に、新規の数量で再び予約する。 同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※解約後から次のAzure予約が適用されるまでの時間課金料金が発生する • (b: オススメ) Azure 予約が解約される前に、新規の数量で再び予約する。 同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※前月のAzure予約分と新規のAzure予約が一部重複する。 詳細については、「削除された Azure AI サービス リソースの復旧または消去」を参 照してください。 Azure OpenAI Service プロビジョニング スループット ユニット (PTU) のオンボード - Azure AI services | Microsoft Learn

Slide 42

Slide 42 text

参照ドキュメント クオータの申請方法 Azure OpenAI Service: Request for Quota Increase プロビジョニングの概要 Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn プロビジョニングの利用手順 クイック スタート - Azure OpenAI Service でプロビジョニングされたデプロイの使用を開始する - Azure OpenAI Service | Microsoft Learn プロビジョニングのサイジング・PTUにおける Azure予約について Azure OpenAI Service プロビジョニング スループット ユニット (PTU) のオンボード - Azure AI services | Microsoft Learn Azure予約の手順 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn

Slide 43

Slide 43 text

Thank you