Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIの新時代:Azure OpenAI Serviceの運用ガイド
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
a_wakamatsu
August 29, 2023
Technology
960
1
Share
AIの新時代:Azure OpenAI Serviceの運用ガイド
Azure OpenAI Serviceの可用性について。この発表は2023年8月時点での内容に基づいています。
a_wakamatsu
August 29, 2023
More Decks by a_wakamatsu
See All by a_wakamatsu
実体験から語る! AWS全冠で得られた価値と全冠取得の道
a_wakamatsu
0
7.4k
Amazon Bedrockが実現する生成AIのセキュアな本番運用
a_wakamatsu
0
51
エンタープライズ On-RampでAWSの利用体験を高める
a_wakamatsu
0
130
Other Decks in Technology
See All in Technology
マンション備え付けのネットワークとLTE回線を組み合わせた ネットワークの安定化の考案
harutiro
1
140
"うちにはまだ早い"は本当? ─ 小さく始めるPlatform Engineering入門
harukasakihara
7
630
生成AI時代に信頼性をどう保ち続けるか - Policy as Code の実践
akitok_
1
490
The Bag-of-Documents Model for Query Understanding and Retrieval
dtunkelang
0
160
AsyncStreamでマルチブロードキャストを実装する
1mash0
1
130
AWS WAFの運用を地道に改善し、自社で運用可能にするプラクティス
andpad
1
460
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
可視化から活用へ — Mesh化・Segmentation・アライメントの研究動向
gpuunite_official
0
230
AWSアップデートから考える継続的な運用改善
toru_kubota
2
300
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
4.5k
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
820
AI-Assisted Contributions and Maintainer Load - PyCon US 2026
pauloxnet
1
180
Featured
See All Featured
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
380
Six Lessons from altMBA
skipperchong
29
4.2k
Color Theory Basics | Prateek | Gurzu
gurzu
0
310
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
360
The untapped power of vector embeddings
frankvandijk
2
1.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The Cost Of JavaScript in 2023
addyosmani
55
9.9k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
sira's awesome portfolio website redesign presentation
elsirapls
0
240
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Abbi's Birthday
coloredviolet
2
7.6k
Transcript
AIの新時代:Azure OpenAI Serviceの運⽤ガイド 株式会社スタディスト 開発本部エンジニアリング部SRE Unit 若松晃洋 2023/08/28
confidential Copyright © 2023 Studist Corporation. all rights reserved. ⾃⼰紹介
ゆるSRE勉強会 #1 2 若松 晃洋 株式会社スタディスト 開発本部エンジニアリング部 SRE Unit所属 2023 Japan AWS All Certifications Engineers受賞 最近興味を持って触ってる技術:Azure OpenAI Service 余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 3 Azure OpenAI Serviceの可⽤性 本⽇の発表内容
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 4 1. Azure OpenAI Serviceの概要 2. TPMとRPMが全ての鍵 3. まとめ 4. SRE採⽤してます! 本⽇のお品書き
Azure OpenAI Serviceの概要 主に⽤語解説 1
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 6 1 2 Microsoft版のOpenAIサービス • GPT-3.5、GPT-4などのモデルが利⽤可能。 マネージドサービス • OpenAIのChatGPTと異なり、MS社が管理。 • OpenAIのChatGPTは世界中のユーザーが利⽤しているが、 こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。 Azure OpenAI Service概要
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 7 TPM(Tokens-Per-Minute) 1分あたりのトークン数 1分あたりに消費できるTPMに上限 RPM(Requests-Per-Minute) 1分あたりのAPI呼び出し回数 1分あたりのAPIの呼び出し回数に上限 ‧RPMの値はTPMの値に連動 ‧1000TPMあたり6RPM トークン(⽂字数のようなもの)
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 8 例:GPT-3.5のTPMの上限値が240K 同⼀サブスクリプション->同⼀リージョン-> 同⼀モデルの全てのリソースで共有 図ではGPT-3.5のリソースが2つあるため、 TPMを120Kずつ按分してる。 TPM サブスクリプション リージョン モデルに割り当てられたTPM: 240K リソースA TPM: 120K リソースB TPM: 120K
TPMとRPMが全ての鍵 2 1分あたりの利⽤上限
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 10 1 2 3 マネージドサービスなので、基本MS社が管理 • CPU、メモリ、ディスクサイズなどは考慮しなくて良い。 • TPM/RPMぐらいしかユーザーは調整できない。 TPM、RPMの上限に近づいているかを気にする • 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。 TPM/RPMの拡張申請 • 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。 TPMとRPMが全ての鍵
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 11 GPT-3.5 デフォルトのTPM上限値 240K RPMの上限値は1440 GPT-4 デフォルトのTPM上限値 GPT-4: 20K GPT-4-32K: 60K RPMの上限値 ‧GPT-4: 120 ‧GPT-4-32K: 360 代表的なモデル
confidential Copyright © 2023 Studist Corporation. all rights reserved. リージョンA
Azure OpenAI ゆるSRE勉強会 #1 12 複数リージョンにリクエストを振り分ける リージョンB Azure OpenAI リージョンC Azure OpenAI Application
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 13 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 7 ⽶国中北部 GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 14 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 GPT-4(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 15 GPT-3.5 全リージョンを利⽤した場合の TPM上限値の最⼤値 1680K GPT-4 全リージョンを利⽤した場合の TPM上限値の最⼤値 ‧GPT-4: 120K ‧GPT-4-32K: 360K 複数リージョンを活⽤した場合
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 16 1 2 GPT-3.5を使うことも選択肢として考える • GPT-4を複数リージョン運⽤しても上限値に達するなら、 GPT-3.5を検討。 将来的には利⽤できるようになる可能性 • 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョン が増えているので、将来的にGPT-4を利⽤できる可能性がある。 GPT-4のTPMが少ない
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 17 1 2 本番とステージングでリージョンを分ける場合 • 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分け る場合には、ステージングだけで1リージョン使ってしまう。本番で利 ⽤できるリージョンは減ってしまう。 GPT-4が利⽤できないリージョンがある • GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤ できると記載があるリージョン全てで、利⽤承認が下りるわけではな い。(需要が多いので、⼀部リージョンに限定して承認される。) 複数リージョン活⽤の課題
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 18 1 2 3 MS社がリクエストログを保持している • 不正使⽤の監視のために、MS社が30⽇間ログを保持。 MS社が保持するログはリソースがあるリージョンに保管 • 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。 • サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能の み、利⽤規約を別途設けた⽅が良いです。 MS社にログを保持しないように申請できる • 申請はできますが、承認のハードルが⾮常に⾼いです。 不正使⽤の監視にまつわる考慮事項
まとめ 3
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 20 • TPMとRPMの監視が⼤事 • 複数リージョン対応でTPM/RPMの拡張 • 複数リージョン利⽤にも課題有り 制限が多くある中で、⼯夫してAI活⽤ まとめ
SRE採⽤してます! 4
confidential Copyright © 2023 Studist Corporation. all rights reserved. 主に関わるサービス
ゆるSRE勉強会 #1 22
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 23 1 2 3 EKS on Fargateでアプリを運⽤ • EC2は使っていません。可能な限りマネージドサービスを活⽤しようと いう考えが強いです。パブリッククラウドのみです。 フルリモート ⾼いレベルでディスカッションができます • 他のエンジニアから学べることが多いです。 SRE採⽤してます!
https://studist.jp/