Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIの新時代:Azure OpenAI Serviceの運用ガイド
Search
a_wakamatsu
August 29, 2023
Technology
1
720
AIの新時代:Azure OpenAI Serviceの運用ガイド
Azure OpenAI Serviceの可用性について。この発表は2023年8月時点での内容に基づいています。
a_wakamatsu
August 29, 2023
Tweet
Share
More Decks by a_wakamatsu
See All by a_wakamatsu
Amazon Bedrockが実現する生成AIのセキュアな本番運用
a_wakamatsu
0
17
エンタープライズ On-RampでAWSの利用体験を高める
a_wakamatsu
0
92
Other Decks in Technology
See All in Technology
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
5
320
20241220_S3 tablesの使い方を検証してみた
handy
4
800
日本版とグローバル版のモバイルアプリ統合の開発の裏側と今後の展望
miichan
1
150
watsonx.ai Dojo #5 ファインチューニングとInstructLAB
oniak3ibm
PRO
0
260
普通のエンジニアがLaravelコアチームメンバーになるまで
avosalmon
0
610
英語が苦手でも学びが得られるWorkshopについて / About the workshop of re:Invent 2024
taquakisatwo
0
600
Unlearn Product Development - Unleashed Edition
lemiorhan
PRO
2
150
AI×医用画像の現状と可能性_2024年版/AI×medical_imaging_in_japan_2024
tdys13
0
520
Fearsome File Formats
ange
0
430
大規模言語モデルとそのソフトウェア開発に向けた応用 (2024年版)
kazato
1
190
12 Days of OpenAIから読み解く、生成AI 2025年のトレンド
shunsukeono_am
0
740
ISUCON、今年も参加してみた / ISUCON, I challenged it again this year.
dero1to
0
110
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
327
38k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
470
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
A Tale of Four Properties
chriscoyier
157
23k
Site-Speed That Sticks
csswizardry
2
200
Making the Leap to Tech Lead
cromwellryan
133
9k
Docker and Python
trallard
43
3.2k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
How to train your dragon (web standard)
notwaldorf
88
5.8k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
171
50k
Transcript
AIの新時代:Azure OpenAI Serviceの運⽤ガイド 株式会社スタディスト 開発本部エンジニアリング部SRE Unit 若松晃洋 2023/08/28
confidential Copyright © 2023 Studist Corporation. all rights reserved. ⾃⼰紹介
ゆるSRE勉強会 #1 2 若松 晃洋 株式会社スタディスト 開発本部エンジニアリング部 SRE Unit所属 2023 Japan AWS All Certifications Engineers受賞 最近興味を持って触ってる技術:Azure OpenAI Service 余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 3 Azure OpenAI Serviceの可⽤性 本⽇の発表内容
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 4 1. Azure OpenAI Serviceの概要 2. TPMとRPMが全ての鍵 3. まとめ 4. SRE採⽤してます! 本⽇のお品書き
Azure OpenAI Serviceの概要 主に⽤語解説 1
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 6 1 2 Microsoft版のOpenAIサービス • GPT-3.5、GPT-4などのモデルが利⽤可能。 マネージドサービス • OpenAIのChatGPTと異なり、MS社が管理。 • OpenAIのChatGPTは世界中のユーザーが利⽤しているが、 こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。 Azure OpenAI Service概要
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 7 TPM(Tokens-Per-Minute) 1分あたりのトークン数 1分あたりに消費できるTPMに上限 RPM(Requests-Per-Minute) 1分あたりのAPI呼び出し回数 1分あたりのAPIの呼び出し回数に上限 ‧RPMの値はTPMの値に連動 ‧1000TPMあたり6RPM トークン(⽂字数のようなもの)
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 8 例:GPT-3.5のTPMの上限値が240K 同⼀サブスクリプション->同⼀リージョン-> 同⼀モデルの全てのリソースで共有 図ではGPT-3.5のリソースが2つあるため、 TPMを120Kずつ按分してる。 TPM サブスクリプション リージョン モデルに割り当てられたTPM: 240K リソースA TPM: 120K リソースB TPM: 120K
TPMとRPMが全ての鍵 2 1分あたりの利⽤上限
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 10 1 2 3 マネージドサービスなので、基本MS社が管理 • CPU、メモリ、ディスクサイズなどは考慮しなくて良い。 • TPM/RPMぐらいしかユーザーは調整できない。 TPM、RPMの上限に近づいているかを気にする • 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。 TPM/RPMの拡張申請 • 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。 TPMとRPMが全ての鍵
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 11 GPT-3.5 デフォルトのTPM上限値 240K RPMの上限値は1440 GPT-4 デフォルトのTPM上限値 GPT-4: 20K GPT-4-32K: 60K RPMの上限値 ‧GPT-4: 120 ‧GPT-4-32K: 360 代表的なモデル
confidential Copyright © 2023 Studist Corporation. all rights reserved. リージョンA
Azure OpenAI ゆるSRE勉強会 #1 12 複数リージョンにリクエストを振り分ける リージョンB Azure OpenAI リージョンC Azure OpenAI Application
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 13 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 7 ⽶国中北部 GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 14 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 GPT-4(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 15 GPT-3.5 全リージョンを利⽤した場合の TPM上限値の最⼤値 1680K GPT-4 全リージョンを利⽤した場合の TPM上限値の最⼤値 ‧GPT-4: 120K ‧GPT-4-32K: 360K 複数リージョンを活⽤した場合
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 16 1 2 GPT-3.5を使うことも選択肢として考える • GPT-4を複数リージョン運⽤しても上限値に達するなら、 GPT-3.5を検討。 将来的には利⽤できるようになる可能性 • 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョン が増えているので、将来的にGPT-4を利⽤できる可能性がある。 GPT-4のTPMが少ない
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 17 1 2 本番とステージングでリージョンを分ける場合 • 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分け る場合には、ステージングだけで1リージョン使ってしまう。本番で利 ⽤できるリージョンは減ってしまう。 GPT-4が利⽤できないリージョンがある • GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤ できると記載があるリージョン全てで、利⽤承認が下りるわけではな い。(需要が多いので、⼀部リージョンに限定して承認される。) 複数リージョン活⽤の課題
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 18 1 2 3 MS社がリクエストログを保持している • 不正使⽤の監視のために、MS社が30⽇間ログを保持。 MS社が保持するログはリソースがあるリージョンに保管 • 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。 • サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能の み、利⽤規約を別途設けた⽅が良いです。 MS社にログを保持しないように申請できる • 申請はできますが、承認のハードルが⾮常に⾼いです。 不正使⽤の監視にまつわる考慮事項
まとめ 3
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 20 • TPMとRPMの監視が⼤事 • 複数リージョン対応でTPM/RPMの拡張 • 複数リージョン利⽤にも課題有り 制限が多くある中で、⼯夫してAI活⽤ まとめ
SRE採⽤してます! 4
confidential Copyright © 2023 Studist Corporation. all rights reserved. 主に関わるサービス
ゆるSRE勉強会 #1 22
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 23 1 2 3 EKS on Fargateでアプリを運⽤ • EC2は使っていません。可能な限りマネージドサービスを活⽤しようと いう考えが強いです。パブリッククラウドのみです。 フルリモート ⾼いレベルでディスカッションができます • 他のエンジニアから学べることが多いです。 SRE採⽤してます!
https://studist.jp/