法人向けChatGPTにおける Azure OpenAI Serviceの課題解決の過程と現在

法人向けChatGPTにおける Azure OpenAI Serviceの課題解決の過程と現在株式会社Algomatic シゴラクAIカンパニー CTO takuya kikuchi

自己紹介 Algomatic シゴラクAIカンパニー CTO 菊池琢弥 / Takuya Kikuchi X:
@_pochi フィンテックスタートアップにおいて開発リードや VPoEとして開発組織構築を担当したほか、モバイルオーダープラットフォームを手がけるShowcase GigではVPoTとして技術領域全般を管掌。 2023年、AlgomaticにカンパニーCTOとして参画。ソフトウェア開発、設計、ドット絵が好き

本日の内容 • 会社紹介 • シゴラクAIのご紹介 • OpenAIとAOAI • Quota制限の実情 •
負荷分散戦略 • シゴラクAIにおける結論 • 今後の見通し

OpenAI と Azure OpenAI Service

OpenAI と Azure OpenAI Service OpenAI AOAI モデル最新のモデルが利用可能やや遅れて追従
（Turbo早かった...！） SLA なし 99.9% データ保存場所米国および世界中のサービスプロバイダーのシステム * リージョン選択可能コンテンツフィルタ Moderation APIを提供自動的に適用（フィルタはカスタマイズ可能）その他 GPT-4の返答がややカクつく *: https://help.openai.com/en/articles/7039943-data-usage-for-consumer-services-faq • 細かい挙動の違いはあれど、基本的にはOpenAIと同じ感覚で利用可能 • SLAがあることでのプロダクション利用への安心感 • （すべてではないが）任意のリージョンにモデルをデプロイできるところも嬉しい ◦ 新しい、あるいはPreviewのモデルは対応リージョンが少ないことも多いので注意

今日はこれの話をします Requests to the Creates a completion for the chat
message Operation under Azure OpenAI API version XXXXX have exceeded token rate limit of your current OpenAI XX pricing tier. Please retry after XX seconds

AOAI Quota制限の実情参考: https://learn.microsoft.com/ja-jp/azure/ai-services/openai/quotas-limits TPM 利用可能リージョン数 GPT-4 20k ~ 40k
最大12リージョン GPT-4-32k 60k ~ 80k 最大12リージョン GPT-4-Turbo 80k ~ 150k 最大10リージョン GPT-3.5-Turbo 240k ~ 300k 最大12リージョン（参考）OpenAI GPT-4 300k TPM　(Tier5) - 公式ドキュメントに記載されている、モデルごとのTPM（Token per minutes）個別申請による緩和が可能なこともある (Provisioned Throughputモデルは今回議論から外していますが、有効な選択肢なはず ) 参考: GPT-4: 最大8kトークン利用可能　GPT-4-Turbo: 128kトークン

リージョンとモデルとデプロイリージョンA モデル GPT-3.5 TPM: 240k GPT-4 TPM: 40k GPT-4-Turbo
TPM: 150k リージョンB モデル GPT-3.5 TPM: 200k リージョンごとに利用可能なモデルおよびQuotaが設定されているアプリケーションからモデルを呼び出すには、デプロイが必要 1リージョンに複数モデルをデプロイすることもできるが、リージョンに設定されたQuotaを超えることはできないデプロイ GPT-3.5 GPT-4 デプロイ GPT-3.5 GPT-3.5 アプリケーション

つまり... リージョン1 リージョン2 デプロイ GPT-4 デプロイ GPT-4 アプリケーションリージョンN デプロイ
GPT-4 … 40k TPM 40k TPM 40k TPM N個のリージョンを駆使すれば、TPMは実質N倍！

負荷分散戦略を考えたどうやって分散させるか • アプリケーションコードで頑張る • Azureサービスを活用する ◦ Azure API Management
◦ Azure Application Gateway ◦ Azure Front Door 観点 • コスト • セキュリティ • 柔軟性 • 運用性

負荷分散に使えそうなAzureのサービス

API Management APIの展開、セキュリティ、監視、利用状況の分析、および開発者とのコラボレーションを一元的に管理できるクラウドベースのサービス。 APIエンドポイントを（外部などに）公開するためのサービスで、認証認可、APIドキュメンテーション、流量制御などなどを利用できるマネージドサービス。エンドポイントごとに XMLによってポリシーを指定可能で、
リトライなどかなり凝った指定も可能

Application Gateway ウェブトラフィックの負荷分散、 SSL終端、およびウェブアプリケーションのセキュリティを提供する L7ロードバランサ。主な機能 • HTTPロードバランシング
• オートスケーリング • URLベースルーティング • WAF • SSL/TLS終端などなど

Front Door ウェブトラフィックのグローバルなルーティングと加速、並びにWAF機能によるセキュリティ保護を提供する L7 ロードバランサー。 CDNを活用した高速なコンテンツ配信と SSL/TLSオフロードをサポート。 Azure
Application Gatewayは、特定のリージョン内でのウェブアプリケーションに対するトラフィック管理に焦点を当てている点に対し、こちらはグローバルな負荷分散を目的としている。また、 CDN機能も統合されており、レイテンシーを最小限に抑える設計となっている

具体的なアプローチ

1. アプリケーションコードでやる一番シンプルなアプローチ長所: 　柔軟性、コスト短所: 　アプリケーションコードが複雑化する　APIキーの管理が煩雑　　→　リージョンごとにAPIキーが払い出される　　→　10リージョンあれば10個のキーを管理することにな
る...

2. API Management API ManagementをPublicに使う構成長所　負荷分散＆冗長化、比較的安い短所　ポリシーが複雑コスト
　APIMの時間課金のみ

3. API Management (Private) API ManagementをVnet統合する構成長所　負荷分散＆冗長化、セキュリティ短所　ポリシーが複雑、コスト
コスト　APIM + Private Endpoint 　　APIM Premium: $3.83/時間（$2757.6/月）　　Private Endpoint: $0.01/時間　　• 受信データ処理量…$0.01/GB (0-1PB) 　　 • 送信データ処理量…$0.01/GB (0-1PB)

4. API Management + Application Gateway 負荷分散をApplication Gatewayに寄せる長所　負荷分散＆冗長化、セキュリティ
短所　コストコスト　案3 + Application Gateway 　Application Gateway 　　固定…$0.29/ゲートウェイ時間　　容量ユニット…容量ユニット時間につき $0.008

5. APIM + Front Door APIM + Front Door 長所
　負荷分散＆冗長化短所　Vnetを使えないコスト　APIM + Front Door 　Front Door 　　標準…$35 　　　使用した時間数に対して課金　　　（一般論として、 Application Gatewayより安価）

シゴラクAIとしての結論

シゴラクAIとしての結論「アプリケーションコードで頑張る」ことを選んだ • 「負荷分散をアプリケーションレイヤーの関心ごとから分離したい」という要求はあるが、こちらはアプリケーションレイヤーの設計上の工夫で十分吸収可能 ◦ 開発チームのスキルセットとして現状はアプリケーションレイヤーを得意とするメンバーが多い ◦ APIキーの管理問題も、アプリケーションサーバを Azureに移管すれば解決する
• 負荷分散戦略も今後変わってくる可能性がある ◦ たとえば、Quotaの制限緩和 ◦ 開発メンバーの拡充所感: GPT-4 Turbo新モデルのリリース直後など、「このモデルは今は OpenAIにしかない」といったイレギュラーケースも多く、現時点においてはこの判断は間違ってなかったように思われる ...

まとめ • OpenAI / AzureOpenAIのQuota制限には頭を悩まされがち • そこは、複数リージョンを使うことである程度拡大可能 • 負荷分散戦略は多くパターンがありうるが、開発チームの状況や事業の方向性などから総合的に決定すべき
◦ インフラ周りを任せられるチームが存在すれば、負荷分散の関心ごとをインフラレイヤーで行うことは十分合理的である ◦ Azure大好きなエンジニア求 • 状況は目まぐるしく変わるので、この正解が半年後も引き続き正解とは限らない ◦ 常に見直し続ける必要がある

法人向けChatGPTにおける Azure OpenAI Serviceの課題解決の過程と現在

法人向けChatGPTにおける Azure OpenAI Serviceの課題解決の過程と現在

takuya kikuchi

More Decks by takuya kikuchi

Featured

Transcript