Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIの新時代:Azure OpenAI Serviceの運用ガイド
Search
a_wakamatsu
August 29, 2023
Technology
1
810
AIの新時代:Azure OpenAI Serviceの運用ガイド
Azure OpenAI Serviceの可用性について。この発表は2023年8月時点での内容に基づいています。
a_wakamatsu
August 29, 2023
Tweet
Share
More Decks by a_wakamatsu
See All by a_wakamatsu
実体験から語る! AWS全冠で得られた価値と全冠取得の道
a_wakamatsu
0
6.9k
Amazon Bedrockが実現する生成AIのセキュアな本番運用
a_wakamatsu
0
38
エンタープライズ On-RampでAWSの利用体験を高める
a_wakamatsu
0
110
Other Decks in Technology
See All in Technology
Microsoft Defender XDRで疲弊しないためのインシデント対応
sophiakunii
3
380
The Madness of Multiple Gemini CLIs Developing Simultaneously with Jujutsu
gunta
1
1.8k
「現場で活躍するAIエージェント」を実現するチームと開発プロセス
tkikuchi1002
5
900
PHPでResult型やってみよう
higaki_program
0
170
振り返りTransit Gateway ~VPCをいい感じでつなげるために~
masakiokuda
4
220
AWS 怖い話 WAF編 @fillz_noh #AWSStartup #AWSStartup_Kansai
fillznoh
0
140
室長の逆襲 :データ活用の陣地を増やすためのヒント
masatoshi0205
0
150
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
1
620
PHPからはじめるコンピュータアーキテクチャ / From Scripts to Silicon: A Journey Through the Layers of Computing
tomzoh
2
360
M365アカウント侵害時の初動対応
lhazy
5
3.5k
(HackFes)米国国防総省のDevSecOpsライフサイクルをAWSのセキュリティサービスとOSSで実現
syoshie
5
610
全部AI、全員Cursor、ドキュメント駆動開発 〜DevinやGeminiも添えて〜
rinchsan
11
5.6k
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
760
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Speed Design
sergeychernyshev
32
1k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Building Applications with DynamoDB
mza
95
6.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Docker and Python
trallard
45
3.5k
A Tale of Four Properties
chriscoyier
160
23k
Code Reviewing Like a Champion
maltzj
524
40k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.8k
How STYLIGHT went responsive
nonsquared
100
5.6k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
54k
Transcript
AIの新時代:Azure OpenAI Serviceの運⽤ガイド 株式会社スタディスト 開発本部エンジニアリング部SRE Unit 若松晃洋 2023/08/28
confidential Copyright © 2023 Studist Corporation. all rights reserved. ⾃⼰紹介
ゆるSRE勉強会 #1 2 若松 晃洋 株式会社スタディスト 開発本部エンジニアリング部 SRE Unit所属 2023 Japan AWS All Certifications Engineers受賞 最近興味を持って触ってる技術:Azure OpenAI Service 余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 3 Azure OpenAI Serviceの可⽤性 本⽇の発表内容
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 4 1. Azure OpenAI Serviceの概要 2. TPMとRPMが全ての鍵 3. まとめ 4. SRE採⽤してます! 本⽇のお品書き
Azure OpenAI Serviceの概要 主に⽤語解説 1
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 6 1 2 Microsoft版のOpenAIサービス • GPT-3.5、GPT-4などのモデルが利⽤可能。 マネージドサービス • OpenAIのChatGPTと異なり、MS社が管理。 • OpenAIのChatGPTは世界中のユーザーが利⽤しているが、 こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。 Azure OpenAI Service概要
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 7 TPM(Tokens-Per-Minute) 1分あたりのトークン数 1分あたりに消費できるTPMに上限 RPM(Requests-Per-Minute) 1分あたりのAPI呼び出し回数 1分あたりのAPIの呼び出し回数に上限 ‧RPMの値はTPMの値に連動 ‧1000TPMあたり6RPM トークン(⽂字数のようなもの)
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 8 例:GPT-3.5のTPMの上限値が240K 同⼀サブスクリプション->同⼀リージョン-> 同⼀モデルの全てのリソースで共有 図ではGPT-3.5のリソースが2つあるため、 TPMを120Kずつ按分してる。 TPM サブスクリプション リージョン モデルに割り当てられたTPM: 240K リソースA TPM: 120K リソースB TPM: 120K
TPMとRPMが全ての鍵 2 1分あたりの利⽤上限
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 10 1 2 3 マネージドサービスなので、基本MS社が管理 • CPU、メモリ、ディスクサイズなどは考慮しなくて良い。 • TPM/RPMぐらいしかユーザーは調整できない。 TPM、RPMの上限に近づいているかを気にする • 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。 TPM/RPMの拡張申請 • 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。 TPMとRPMが全ての鍵
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 11 GPT-3.5 デフォルトのTPM上限値 240K RPMの上限値は1440 GPT-4 デフォルトのTPM上限値 GPT-4: 20K GPT-4-32K: 60K RPMの上限値 ‧GPT-4: 120 ‧GPT-4-32K: 360 代表的なモデル
confidential Copyright © 2023 Studist Corporation. all rights reserved. リージョンA
Azure OpenAI ゆるSRE勉強会 #1 12 複数リージョンにリクエストを振り分ける リージョンB Azure OpenAI リージョンC Azure OpenAI Application
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 13 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 7 ⽶国中北部 GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 14 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 GPT-4(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 15 GPT-3.5 全リージョンを利⽤した場合の TPM上限値の最⼤値 1680K GPT-4 全リージョンを利⽤した場合の TPM上限値の最⼤値 ‧GPT-4: 120K ‧GPT-4-32K: 360K 複数リージョンを活⽤した場合
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 16 1 2 GPT-3.5を使うことも選択肢として考える • GPT-4を複数リージョン運⽤しても上限値に達するなら、 GPT-3.5を検討。 将来的には利⽤できるようになる可能性 • 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョン が増えているので、将来的にGPT-4を利⽤できる可能性がある。 GPT-4のTPMが少ない
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 17 1 2 本番とステージングでリージョンを分ける場合 • 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分け る場合には、ステージングだけで1リージョン使ってしまう。本番で利 ⽤できるリージョンは減ってしまう。 GPT-4が利⽤できないリージョンがある • GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤ できると記載があるリージョン全てで、利⽤承認が下りるわけではな い。(需要が多いので、⼀部リージョンに限定して承認される。) 複数リージョン活⽤の課題
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 18 1 2 3 MS社がリクエストログを保持している • 不正使⽤の監視のために、MS社が30⽇間ログを保持。 MS社が保持するログはリソースがあるリージョンに保管 • 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。 • サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能の み、利⽤規約を別途設けた⽅が良いです。 MS社にログを保持しないように申請できる • 申請はできますが、承認のハードルが⾮常に⾼いです。 不正使⽤の監視にまつわる考慮事項
まとめ 3
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 20 • TPMとRPMの監視が⼤事 • 複数リージョン対応でTPM/RPMの拡張 • 複数リージョン利⽤にも課題有り 制限が多くある中で、⼯夫してAI活⽤ まとめ
SRE採⽤してます! 4
confidential Copyright © 2023 Studist Corporation. all rights reserved. 主に関わるサービス
ゆるSRE勉強会 #1 22
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 23 1 2 3 EKS on Fargateでアプリを運⽤ • EC2は使っていません。可能な限りマネージドサービスを活⽤しようと いう考えが強いです。パブリッククラウドのみです。 フルリモート ⾼いレベルでディスカッションができます • 他のエンジニアから学べることが多いです。 SRE採⽤してます!
https://studist.jp/