Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIの新時代:Azure OpenAI Serviceの運用ガイド
Search
a_wakamatsu
August 29, 2023
Technology
1
820
AIの新時代:Azure OpenAI Serviceの運用ガイド
Azure OpenAI Serviceの可用性について。この発表は2023年8月時点での内容に基づいています。
a_wakamatsu
August 29, 2023
Tweet
Share
More Decks by a_wakamatsu
See All by a_wakamatsu
実体験から語る! AWS全冠で得られた価値と全冠取得の道
a_wakamatsu
0
7k
Amazon Bedrockが実現する生成AIのセキュアな本番運用
a_wakamatsu
0
44
エンタープライズ On-RampでAWSの利用体験を高める
a_wakamatsu
0
110
Other Decks in Technology
See All in Technology
モダンフロントエンド 開発研修
recruitengineers
PRO
10
6.2k
エラーとアクセシビリティ
schktjm
0
390
ライブサービスゲームQAのパフォーマンス検証による品質改善の取り組み
gree_tech
PRO
0
440
大「個人開発サービス」時代に僕たちはどう生きるか
sotarok
15
7.4k
7月のガバクラ利用料が高かったので調べてみた
techniczna
3
820
Bye-Bye Query Spaghetti: Write Queries You'll Actually Understand Using Pipelined SQL Syntax
tobiaslampertlotum
0
120
個人CLAUDE.md紹介と設定から学んだこと/introduce-my-claude-md
shibayu36
0
170
Webブラウザ向け動画配信プレイヤーの 大規模リプレイスから得た知見と学び
yud0uhu
0
170
シークレット管理だけじゃない!HashiCorp Vault でデータ暗号化をしよう / Beyond Secret Management! Let's Encrypt Data with HashiCorp Vault
nnstt1
3
140
実践データベース設計 ①データベース設計概論
recruitengineers
PRO
4
2k
Obsidian応用活用術
onikun94
0
120
「魔法少女まどか☆マギカ Magia Exedra」の必殺技演出を徹底解剖! -キャラクターの魅力を最大限にファンに届けるためのこだわり-
gree_tech
PRO
0
450
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
840
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
800
RailsConf 2023
tenderlove
30
1.2k
The Pragmatic Product Professional
lauravandoore
36
6.8k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Optimizing for Happiness
mojombo
379
70k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
Gamification - CAS2011
davidbonilla
81
5.4k
Embracing the Ebb and Flow
colly
87
4.8k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Automating Front-end Workflow
addyosmani
1370
200k
Bash Introduction
62gerente
614
210k
Transcript
AIの新時代:Azure OpenAI Serviceの運⽤ガイド 株式会社スタディスト 開発本部エンジニアリング部SRE Unit 若松晃洋 2023/08/28
confidential Copyright © 2023 Studist Corporation. all rights reserved. ⾃⼰紹介
ゆるSRE勉強会 #1 2 若松 晃洋 株式会社スタディスト 開発本部エンジニアリング部 SRE Unit所属 2023 Japan AWS All Certifications Engineers受賞 最近興味を持って触ってる技術:Azure OpenAI Service 余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 3 Azure OpenAI Serviceの可⽤性 本⽇の発表内容
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 4 1. Azure OpenAI Serviceの概要 2. TPMとRPMが全ての鍵 3. まとめ 4. SRE採⽤してます! 本⽇のお品書き
Azure OpenAI Serviceの概要 主に⽤語解説 1
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 6 1 2 Microsoft版のOpenAIサービス • GPT-3.5、GPT-4などのモデルが利⽤可能。 マネージドサービス • OpenAIのChatGPTと異なり、MS社が管理。 • OpenAIのChatGPTは世界中のユーザーが利⽤しているが、 こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。 Azure OpenAI Service概要
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 7 TPM(Tokens-Per-Minute) 1分あたりのトークン数 1分あたりに消費できるTPMに上限 RPM(Requests-Per-Minute) 1分あたりのAPI呼び出し回数 1分あたりのAPIの呼び出し回数に上限 ‧RPMの値はTPMの値に連動 ‧1000TPMあたり6RPM トークン(⽂字数のようなもの)
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 8 例:GPT-3.5のTPMの上限値が240K 同⼀サブスクリプション->同⼀リージョン-> 同⼀モデルの全てのリソースで共有 図ではGPT-3.5のリソースが2つあるため、 TPMを120Kずつ按分してる。 TPM サブスクリプション リージョン モデルに割り当てられたTPM: 240K リソースA TPM: 120K リソースB TPM: 120K
TPMとRPMが全ての鍵 2 1分あたりの利⽤上限
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 10 1 2 3 マネージドサービスなので、基本MS社が管理 • CPU、メモリ、ディスクサイズなどは考慮しなくて良い。 • TPM/RPMぐらいしかユーザーは調整できない。 TPM、RPMの上限に近づいているかを気にする • 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。 TPM/RPMの拡張申請 • 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。 TPMとRPMが全ての鍵
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 11 GPT-3.5 デフォルトのTPM上限値 240K RPMの上限値は1440 GPT-4 デフォルトのTPM上限値 GPT-4: 20K GPT-4-32K: 60K RPMの上限値 ‧GPT-4: 120 ‧GPT-4-32K: 360 代表的なモデル
confidential Copyright © 2023 Studist Corporation. all rights reserved. リージョンA
Azure OpenAI ゆるSRE勉強会 #1 12 複数リージョンにリクエストを振り分ける リージョンB Azure OpenAI リージョンC Azure OpenAI Application
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 13 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 7 ⽶国中北部 GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 14 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 GPT-4(0613)を利⽤できるリージョン ※2023/08現在
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 15 GPT-3.5 全リージョンを利⽤した場合の TPM上限値の最⼤値 1680K GPT-4 全リージョンを利⽤した場合の TPM上限値の最⼤値 ‧GPT-4: 120K ‧GPT-4-32K: 360K 複数リージョンを活⽤した場合
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 16 1 2 GPT-3.5を使うことも選択肢として考える • GPT-4を複数リージョン運⽤しても上限値に達するなら、 GPT-3.5を検討。 将来的には利⽤できるようになる可能性 • 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョン が増えているので、将来的にGPT-4を利⽤できる可能性がある。 GPT-4のTPMが少ない
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 17 1 2 本番とステージングでリージョンを分ける場合 • 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分け る場合には、ステージングだけで1リージョン使ってしまう。本番で利 ⽤できるリージョンは減ってしまう。 GPT-4が利⽤できないリージョンがある • GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤ できると記載があるリージョン全てで、利⽤承認が下りるわけではな い。(需要が多いので、⼀部リージョンに限定して承認される。) 複数リージョン活⽤の課題
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 18 1 2 3 MS社がリクエストログを保持している • 不正使⽤の監視のために、MS社が30⽇間ログを保持。 MS社が保持するログはリソースがあるリージョンに保管 • 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。 • サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能の み、利⽤規約を別途設けた⽅が良いです。 MS社にログを保持しないように申請できる • 申請はできますが、承認のハードルが⾮常に⾼いです。 不正使⽤の監視にまつわる考慮事項
まとめ 3
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 20 • TPMとRPMの監視が⼤事 • 複数リージョン対応でTPM/RPMの拡張 • 複数リージョン利⽤にも課題有り 制限が多くある中で、⼯夫してAI活⽤ まとめ
SRE採⽤してます! 4
confidential Copyright © 2023 Studist Corporation. all rights reserved. 主に関わるサービス
ゆるSRE勉強会 #1 22
confidential Copyright © 2023 Studist Corporation. all rights reserved. ゆるSRE勉強会
#1 23 1 2 3 EKS on Fargateでアプリを運⽤ • EC2は使っていません。可能な限りマネージドサービスを活⽤しようと いう考えが強いです。パブリッククラウドのみです。 フルリモート ⾼いレベルでディスカッションができます • 他のエンジニアから学べることが多いです。 SRE採⽤してます!
https://studist.jp/