Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure OpenAI Service を使う際の選択肢 Provisioned について

Daiki Kanemitsu
November 04, 2024
92

Azure OpenAI Service を使う際の選択肢 Provisioned について

概要
このプレゼンテーションは、Azure OpenAI Serviceのプロビジョニングオプションについて説明しています。主な内容は、デプロイメントの選択肢、PTU(Provisioned Throughput Unit)の効果的な利用方法、購入およびキャンセルに関する注意事項などです。また、Azure OpenAI Serviceの提供方法やコスト削減のためのAzure Reservationsの利用方法についても触れています。

※最近アップデートされた PPTのCopilot に概要文の作成を依頼

Daiki Kanemitsu

November 04, 2024
Tweet

Transcript

  1. Azure OpenAI Service の提供オプション サービス Azure OpenAI Service オファー Standard

    (従量課金) Provisioned (PTU) Batch (バッチ処理) デプロイメント方法 Global Data Zones Regional Global Data Zones Global Data Zones Regional NEW Coming soon NEW
  2. Azure OpenAI Service の提供方法について Standard Provisioned Batch • ほとんどのユースケースに最適 •

    予測可能かつ、高いスループットによる 簡単かつ安定したアクセス • 大量のデータを低コストで処理 • 簡単に始めることができ、本番環境に スムーズに移行できます • 大規模で一貫したボリュームの リアルタイム処理 • さまざまなワークロードに対応できる 拡張性 • 低規模から中規模の導入に適した コスト効率 • 大規模な導入に適したコスト効率 • 大規模な導入に適したコスト効率 G O O D F O R : ✓ 運用ワークロード ✓ 開発とテスト ✓ プロトタイピングと概念実証 R E C O M M E N D E D F O R : ✓ 運用ワークロード ✓ 大量のデータ処理 ✓ スループットの高いワークロード ✓ 最小限のレイテンシでリアルタイムな アプリケーション R E C O M M E N D E D F O R : ✓ 大規模なデータ処理 ✓ 大量のコンテンツを生成する データを 大規模に変換する ✓ LLMモデルを評価し、包括的な パフォーマンスを評価
  3. あなたに適したデプロイメント方法の選択肢 Global Data Zone Regional • 最高のスループットで最低価格 • 地理的境界内のリージョン間負荷分 散

    (米国または EU) • 特定のデータ処理 • 最も幅広いモデルの可用性 • より広範囲なモデルの可用性 • 特定のモデルで利用可能 • 最も広範な容量の可用性 • より広範囲な容量の可用性 • 容量の可用性が限定的 B E S T F O R : ✓ 複数のリージョン間で一貫したエクスペ リエンスを必要とするアプリケーション ✓ 低遅延でグローバルに利用可能である 必要があるサービス ✓ コスト削減が優先事項 ✓ デプロイメントに依存しない データ所在地 B E S T F O R : ✓ データ所在地が必要な、より多くの処 理能力を必要とするアプリケーション ✓ コンプライアンス要件を満たすことによる コスト削減 ✓ 最新のAIモデルとイノベーションへの最 適なアクセス B E S T F O R : ✓ データ所在地のコンプライアンスを グローバルに低レイテンシで満たすために 必要なアプリケーション ✓ レイテンシーを短縮するためにエンドユー ザーに近づける必要があるサービス ✓ ローカライズされたデータ処理とストレージ を必要とするアプリケーション
  4. 初期の購入数が少ないため、簡単に始めることが可能に Provisioned デプロイの種類とモデルごとの最小購入単位/増分購入単位 GPT 4o 15 5 15 5 15

    5 50 50 GPT 4o mini 15 5 15 5 15 5 25 25 GPT 4T 100 100 Legacy Models* GPT 4-32k 200 200 GPT 4-8k 100 100 GPT 3.5T 0125 50 50 *Note retirement dates for legacy models: Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn. Model Global 最小 増分 Data Zone EU 最小 US 増分 Regional 最小 増分 最小 増分 最小 増分 最小 増分 ※単位: PTU
  5. Azure Reservations によるコスト削減 時間単位PTU (1PTUあたり) 1ヶ月・予約 /月額 (1PTUあたり) 1年・予約 /月額

    (1PTUあたり) $1.00 $260 $221 $1.10 $260 $221 $2.00 $260 $221 *Changes この価格は2024年11月1日より適用されます。より詳細な価格設定については、Azure OpenAI Service Pricing. Global Data Zone USA&EU* Data Zone Regional
  6. Provisioned の最小導入金額を試算してみる 月額のAzure予約をして、1PTU = $260 = 39,000円 ($1=150円) とした場合 GPT

    4o 15 58万5000円 5 19万5000円 15 58万5000円 5 19万5000円 15 58万5000円 5 19万5000円 50 195万円 50 195万円 GPT 4o mini 15 58万5000円 5 19万5000円 15 58万5000円 5 19万5000円 15 58万5000円 5 19万5000円 25 97万5000円 25 97万5000円 GPT 4T 100 390万円 100 390万円 Legacy Models* GPT 4-32k 200 780万円 200 780万円 GPT 4-8k 100 390万円 100 390万円 GPT 3.5T 0125 50 195万円 50 195万円 *Note retirement dates for legacy models: Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn. Model Global 最小 増分 Data Zone EU 最小 US 増分 Regional 最小 増分 最小 増分 最小 増分 最小 増分 ※ 単位 PTU
  7. Provisioned Managed セルフサービス購入により、 導入を迅速化 プロビジョニングされたセルフサービスのクォータ管理: • ユーザーフレンドリーなフォームによる簡単なクォータリクエスト • 迅速な自動承認プロセスにより、導入を迅速化 柔軟なモデル使用:

    • クォータは任意のモデル/バージョンに使用でき、柔軟性が向上します • アクセスを容易にするために、サポートされているすべてのリージョンに既定のクォータが割り当 てられます リアルタイムの容量に関する洞察: • 地域サービス容量への透明性の高いアクセスにより、より良い計画を立てることができます。 • ガイド付きデプロイ エクスペリエンスでは、容量がいっぱいの場合に代替リージョンが提供され ます 新しい予約モデルを組み込む: • 月間および年額のコミットメントの割引 Azure 予約 • 時間単位の請求のオプションであり、ワークロードのテストと移行を簡素化するためのコミットメ ントはありません
  8. PTUの試算方法 簡易計算式を利用 Azure OpenAI Service の[クオータ]→[Azure OpenAI Provisioned] → [容量計算ツール]

    にて試算可能:もしくは Azure OpenAI 容量計算ツール から • モデル:使う予定の OpenAI モデル • バージョン:使う予定のモデルのバージョン • Peak calls per min:1分間のCallされる回数 • Token in prompt call: 1分間の入力トーク数 • Image input tokens:1分間の画像入力トーク数 ※利用しない際は 0 として入力すること • Tokens in Model response: 1分間の出力トークン数 試算ツールを利用 gpt-4o, 2024-05-13 & gpt-4o, 2024-08-06 gpt-4o-mini、2024- 07-18 デプロイ可能な増分 50 25 PTU あたりの入力 TPM 2,500 37,000 PTU あたりの出力 TPM 833 12,333 • デプロイにおけるTPMは、入力および出力トークン数の相関関係に基づきます。 出力トークンが多いほど、TPMは低くなるが、サービスが動的にコストバランスを 調整するため、特定の制限をユーザーが設定する必要はありません。 • GPT-4o/miniについて、PTUごとのTPMの概要を提示します。 Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn
  9. 実装計画 API Manager の柔軟性 デプロイに APIM を追加すると、複数の利点がある 1. 複数のユースケースでエンドポイントを再利用し、ユースケース ごとにリダイレクト

    2. 特定のアプリケーションまたはユーザーからのトラフィックに優先 順位を付ける 3. アプリケーションを最適化するための再試行ロジックの実装 4. 社内のチャージバックを実装する Learn more via these GitHub Repo: • Azure/aoai-apim: Scaling AOAI using APIM, PTUs and TPMs (github.com) • Azure-Samples/private-openai-with-apim-for-chargeback: Open AI with Private Endpoints behind APIM and functionality to get tokens consumption for each consumer (github.com)
  10. 実装計画 コストとスケールの弾力性 Provisioned plus Standard でワーク ロードのサイズを適切に設定する方法 オプションの最適な組み合わせを選択するには、 下記の事項を検討してみてください。 1.

    ワークロードのトラフィックパターンはどのようなものですか? • そのトラフィックはどの程度広く分散されているか、または狭く分散されて いるか。 • トラフィックのピーク時間は何時ですか? 2. このプロセスの現在の全体的な予算/支出はどれくらいです か? • 現在のプロセスの総コスト • プロセス全体の節約目標 3. プロビジョニング済み容量を共有できる他のユースケース • 他のタイムゾーンにも同様のニーズと異なるピークがあります • 労働時間に敏感でないバッチの使用例 Learn more via this blog: Right-size your PTU deployment and save big (microsoft.com)
  11. 実装計画 トラフィックのコントロール 0AM 6AM 12PM 18PM 0AM 100% 0AM 6AM

    12PM 18PM 0AM 100% 0AM 6AM 12PM 18PM 0AM 方法1 レート制御 100% 95% • レート制御ができるお客様向き • PTUを最大限活用 • 実施難度が高い • レイテンシーをやや損ねる 方法2 リトライ 方法3 PAYGへ誘導 • 不定期的なスパイク向き • 実施が容易 • レイテンシーをやや損ねる • コストセンシティブなお客様向き • TPM上限値が必要な量よりやや 下回る場合に適す • レイテンシーがかなり上がる
  12. 実装計画 信頼性とセキュリティのための優れた設計 ベスト プラクティスのランディング ゾーンを実装し て、Gen AI 実装の回復力、冗長性、セキュリ ティのニーズを満たすようにします。 また、このガイダンスは、Azure

    AI Search や Azure Machine Learning (PromptFlow) な どの重要なサービスを含むように拡張され、完 全に機能する Gen AI のユース ケースを構築し ます。 Learn more via these docs: • Azure Well-Architected Framework perspective on Azure OpenAI - Microsoft Azure Well-Architected Framework | Microsoft Learn • Baseline OpenAI end-to-end chat reference architecture - Azure Reference Architectures | Microsoft Learn)
  13. Provisioned Managed を購入する際の注意 • Provisioned Managed を作成後は、すぐにAzure予約を行う • Azure予約から購入するは推奨しない。というのも、Azure予約でディスカウント適用済みのPTU数量を 購入したとしても、デプロイメント時に以下の理由で利用でデプロイできず、無駄な購入となることがある。

    1. PTUのクオータがなく、モデルをデプロイすることができない。 2. Azure側でリージョンのキャパシティーの制約により、モデルをデプロイすることができない。 • Provisioned Managed の作成できる方の権限を絞っておくことも可能 • Azure サブスクリプションで Provisioned のデプロイを作成できないように制限する必要がある場合は、 Azure Policy により利用可能なデプロイの種類を限定できます。 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn Azure OpenAI ServiceのProvisionedデプロイについて | Japan Cognitive Services Support Blog
  14. Provisioned Managed を減数・解約する際の注意 • Provisioned Managedを解約し、従量課金へ移行したい場合 • Azure 予約をしている際は、自動更新をオフにする。 •

    Azure 予約が解除される前に、つまり、Provisioned Managedが時間課金になる前に デプロイメント(モデル)を削除する。その際、モデルを残したままリソースごと削除しないこと。 ※ サービス利用有無にかかわらず、モデルをデプロイしている間は時間課金となるため。 • Provisioned Managed のPTU数量を減らしたいとき • Azure 予約の自動更新をオフにする。 • (a) Azure 予約が解約された後に、新規の数量で再び予約する。 同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※解約後から次のAzure予約が適用されるまでの時間課金料金が発生する • (b: オススメ) Azure 予約が解約される前に、新規の数量で再び予約する。 同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※前月のAzure予約分と新規のAzure予約が一部重複する。 詳細については、「削除された Azure AI サービス リソースの復旧または消去」を参 照してください。 Azure OpenAI Service プロビジョニング スループット ユニット (PTU) のオンボード - Azure AI services | Microsoft Learn
  15. 参照ドキュメント クオータの申請方法 Azure OpenAI Service: Request for Quota Increase プロビジョニングの概要

    Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn プロビジョニングの利用手順 クイック スタート - Azure OpenAI Service でプロビジョニングされたデプロイの使用を開始する - Azure OpenAI Service | Microsoft Learn プロビジョニングのサイジング・PTUにおける Azure予約について Azure OpenAI Service プロビジョニング スループット ユニット (PTU) のオンボード - Azure AI services | Microsoft Learn Azure予約の手順 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn