Azure OpenAI Serviceの可用性について。この発表は2023年8月時点での内容に基づいています。
AIの新時代:Azure OpenAI Serviceの運⽤ガイド株式会社スタディスト開発本部エンジニアリング部SRE Unit 若松晃洋2023/08/28
View Slide
confidential Copyright © 2023 Studist Corporation. all rights reserved. ⾃⼰紹介ゆるSRE勉強会 #12若松 晃洋株式会社スタディスト開発本部エンジニアリング部 SRE Unit所属2023 Japan AWS All Certifications Engineers受賞最近興味を持って触ってる技術:Azure OpenAI Service余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #13Azure OpenAI Serviceの可⽤性本⽇の発表内容
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #14 1. Azure OpenAI Serviceの概要2. TPMとRPMが全ての鍵3. まとめ4. SRE採⽤してます!本⽇のお品書き
Azure OpenAI Serviceの概要主に⽤語解説1
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #1612Microsoft版のOpenAIサービス● GPT-3.5、GPT-4などのモデルが利⽤可能。マネージドサービス● OpenAIのChatGPTと異なり、MS社が管理。● OpenAIのChatGPTは世界中のユーザーが利⽤しているが、こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。Azure OpenAI Service概要
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #17TPM(Tokens-Per-Minute)1分あたりのトークン数1分あたりに消費できるTPMに上限RPM(Requests-Per-Minute)1分あたりのAPI呼び出し回数1分あたりのAPIの呼び出し回数に上限‧RPMの値はTPMの値に連動‧1000TPMあたり6RPMトークン(⽂字数のようなもの)
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #18例:GPT-3.5のTPMの上限値が240K同⼀サブスクリプション->同⼀リージョン->同⼀モデルの全てのリソースで共有図ではGPT-3.5のリソースが2つあるため、TPMを120Kずつ按分してる。TPMサブスクリプションリージョンモデルに割り当てられたTPM: 240KリソースATPM: 120KリソースBTPM: 120K
TPMとRPMが全ての鍵21分あたりの利⽤上限
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #110123マネージドサービスなので、基本MS社が管理● CPU、メモリ、ディスクサイズなどは考慮しなくて良い。● TPM/RPMぐらいしかユーザーは調整できない。TPM、RPMの上限に近づいているかを気にする● 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。TPM/RPMの拡張申請● 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。TPMとRPMが全ての鍵
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #111GPT-3.5デフォルトのTPM上限値240KRPMの上限値は1440GPT-4デフォルトのTPM上限値GPT-4: 20KGPT-4-32K: 60KRPMの上限値‧GPT-4: 120‧GPT-4-32K: 360代表的なモデル
confidential Copyright © 2023 Studist Corporation. all rights reserved. リージョンAAzure OpenAIゆるSRE勉強会 #112複数リージョンにリクエストを振り分けるリージョンBAzure OpenAIリージョンCAzure OpenAIApplication
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #113項⽬ 概要1 カナダ東部2 ⽶国東部3 ⽶国東部24 フランス中部5 東⽇本6 英国南部7 ⽶国中北部GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #114項⽬ 概要1 カナダ東部2 ⽶国東部3 ⽶国東部24 フランス中部5 東⽇本6 英国南部GPT-4(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #115GPT-3.5全リージョンを利⽤した場合のTPM上限値の最⼤値1680KGPT-4全リージョンを利⽤した場合のTPM上限値の最⼤値‧GPT-4: 120K‧GPT-4-32K: 360K複数リージョンを活⽤した場合
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #11612GPT-3.5を使うことも選択肢として考える● GPT-4を複数リージョン運⽤しても上限値に達するなら、GPT-3.5を検討。将来的には利⽤できるようになる可能性● 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョンが増えているので、将来的にGPT-4を利⽤できる可能性がある。GPT-4のTPMが少ない
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #11712本番とステージングでリージョンを分ける場合● 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分ける場合には、ステージングだけで1リージョン使ってしまう。本番で利⽤できるリージョンは減ってしまう。GPT-4が利⽤できないリージョンがある● GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤できると記載があるリージョン全てで、利⽤承認が下りるわけではない。(需要が多いので、⼀部リージョンに限定して承認される。)複数リージョン活⽤の課題
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #118123MS社がリクエストログを保持している● 不正使⽤の監視のために、MS社が30⽇間ログを保持。MS社が保持するログはリソースがあるリージョンに保管● 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。● サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能のみ、利⽤規約を別途設けた⽅が良いです。MS社にログを保持しないように申請できる● 申請はできますが、承認のハードルが⾮常に⾼いです。不正使⽤の監視にまつわる考慮事項
まとめ3
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #120•TPMとRPMの監視が⼤事•複数リージョン対応でTPM/RPMの拡張•複数リージョン利⽤にも課題有り制限が多くある中で、⼯夫してAI活⽤まとめ
SRE採⽤してます!4
confidential Copyright © 2023 Studist Corporation. all rights reserved. 主に関わるサービスゆるSRE勉強会 #122
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会 #123123EKS on Fargateでアプリを運⽤● EC2は使っていません。可能な限りマネージドサービスを活⽤しようという考えが強いです。パブリッククラウドのみです。フルリモート⾼いレベルでディスカッションができます● 他のエンジニアから学べることが多いです。SRE採⽤してます!
https://studist.jp/