Slide 1

Slide 1 text

AIの新時代:Azure OpenAI Serviceの運⽤ガイド 株式会社スタディスト 開発本部エンジニアリング部SRE Unit 若松晃洋 2023/08/28

Slide 2

Slide 2 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ⾃⼰紹介 ゆるSRE勉強会 #1 2 若松 晃洋 株式会社スタディスト 開発本部エンジニアリング部 SRE Unit所属 2023 Japan AWS All Certifications Engineers受賞 最近興味を持って触ってる技術:Azure OpenAI Service 余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。

Slide 3

Slide 3 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 3 Azure OpenAI Serviceの可⽤性 本⽇の発表内容

Slide 4

Slide 4 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 4
 1. Azure OpenAI Serviceの概要 2. TPMとRPMが全ての鍵 3. まとめ 4. SRE採⽤してます! 本⽇のお品書き

Slide 5

Slide 5 text

Azure OpenAI Serviceの概要 主に⽤語解説 1

Slide 6

Slide 6 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 6 1 2 Microsoft版のOpenAIサービス ● GPT-3.5、GPT-4などのモデルが利⽤可能。 マネージドサービス ● OpenAIのChatGPTと異なり、MS社が管理。 ● OpenAIのChatGPTは世界中のユーザーが利⽤しているが、 こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。 Azure OpenAI Service概要

Slide 7

Slide 7 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 7 TPM(Tokens-Per-Minute) 1分あたりのトークン数 1分あたりに消費できるTPMに上限 RPM(Requests-Per-Minute) 1分あたりのAPI呼び出し回数 1分あたりのAPIの呼び出し回数に上限 ‧RPMの値はTPMの値に連動 ‧1000TPMあたり6RPM トークン(⽂字数のようなもの)

Slide 8

Slide 8 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 8 例:GPT-3.5のTPMの上限値が240K 同⼀サブスクリプション->同⼀リージョン-> 同⼀モデルの全てのリソースで共有 図ではGPT-3.5のリソースが2つあるため、 TPMを120Kずつ按分してる。 TPM サブスクリプション リージョン モデルに割り当てられたTPM: 240K リソースA TPM: 120K リソースB TPM: 120K

Slide 9

Slide 9 text

TPMとRPMが全ての鍵 2 1分あたりの利⽤上限

Slide 10

Slide 10 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 10 1 2 3 マネージドサービスなので、基本MS社が管理 ● CPU、メモリ、ディスクサイズなどは考慮しなくて良い。 ● TPM/RPMぐらいしかユーザーは調整できない。 TPM、RPMの上限に近づいているかを気にする ● 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。 TPM/RPMの拡張申請 ● 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。 TPMとRPMが全ての鍵

Slide 11

Slide 11 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 11 GPT-3.5 デフォルトのTPM上限値 240K RPMの上限値は1440 GPT-4 デフォルトのTPM上限値 GPT-4: 20K GPT-4-32K: 60K RPMの上限値 ‧GPT-4: 120 ‧GPT-4-32K: 360 代表的なモデル

Slide 12

Slide 12 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 リージョンA Azure OpenAI ゆるSRE勉強会 #1 12 複数リージョンにリクエストを振り分ける リージョンB Azure OpenAI リージョンC Azure OpenAI Application

Slide 13

Slide 13 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 13 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 7 ⽶国中北部 GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在

Slide 14

Slide 14 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 14 項⽬ 概要 1 カナダ東部 2 ⽶国東部 3 ⽶国東部2 4 フランス中部 5 東⽇本 6 英国南部 GPT-4(0613)を利⽤できるリージョン ※2023/08現在

Slide 15

Slide 15 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 15 GPT-3.5 全リージョンを利⽤した場合の TPM上限値の最⼤値 1680K GPT-4 全リージョンを利⽤した場合の TPM上限値の最⼤値 ‧GPT-4: 120K ‧GPT-4-32K: 360K 複数リージョンを活⽤した場合

Slide 16

Slide 16 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 16 1 2 GPT-3.5を使うことも選択肢として考える ● GPT-4を複数リージョン運⽤しても上限値に達するなら、 GPT-3.5を検討。 将来的には利⽤できるようになる可能性 ● 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョン が増えているので、将来的にGPT-4を利⽤できる可能性がある。 GPT-4のTPMが少ない

Slide 17

Slide 17 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 17 1 2 本番とステージングでリージョンを分ける場合 ● 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分け る場合には、ステージングだけで1リージョン使ってしまう。本番で利 ⽤できるリージョンは減ってしまう。 GPT-4が利⽤できないリージョンがある ● GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤ できると記載があるリージョン全てで、利⽤承認が下りるわけではな い。(需要が多いので、⼀部リージョンに限定して承認される。) 複数リージョン活⽤の課題

Slide 18

Slide 18 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 18 1 2 3 MS社がリクエストログを保持している ● 不正使⽤の監視のために、MS社が30⽇間ログを保持。 MS社が保持するログはリソースがあるリージョンに保管 ● 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。 ● サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能の み、利⽤規約を別途設けた⽅が良いです。 MS社にログを保持しないように申請できる ● 申請はできますが、承認のハードルが⾮常に⾼いです。 不正使⽤の監視にまつわる考慮事項

Slide 19

Slide 19 text

まとめ 3

Slide 20

Slide 20 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 20 • TPMとRPMの監視が⼤事 • 複数リージョン対応でTPM/RPMの拡張 • 複数リージョン利⽤にも課題有り 制限が多くある中で、⼯夫してAI活⽤ まとめ

Slide 21

Slide 21 text

SRE採⽤してます! 4

Slide 22

Slide 22 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 主に関わるサービス ゆるSRE勉強会 #1 22


Slide 23

Slide 23 text

confidential
 Copyright © 2023 Studist Corporation. all rights reserved.
 ゆるSRE勉強会 #1 23 1 2 3 EKS on Fargateでアプリを運⽤ ● EC2は使っていません。可能な限りマネージドサービスを活⽤しようと いう考えが強いです。パブリッククラウドのみです。 フルリモート ⾼いレベルでディスカッションができます ● 他のエンジニアから学べることが多いです。 SRE採⽤してます!

Slide 24

Slide 24 text

https://studist.jp/