Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIの新時代:Azure OpenAI Serviceの運用ガイド

AIの新時代:Azure OpenAI Serviceの運用ガイド

Azure OpenAI Serviceの可用性について。この発表は2023年8月時点での内容に基づいています。

akihiro_wakamatsu

August 29, 2023
Tweet

Other Decks in Technology

Transcript

  1. AIの新時代:Azure OpenAI Serviceの運⽤ガイド
    株式会社スタディスト
    開発本部エンジニアリング部SRE Unit 若松晃洋
    2023/08/28

    View Slide

  2. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ⾃⼰紹介
    ゆるSRE勉強会 #1
    2
    若松 晃洋
    株式会社スタディスト
    開発本部エンジニアリング部 SRE Unit所属
    2023 Japan AWS All Certifications Engineers受賞
    最近興味を持って触ってる技術:Azure OpenAI Service
    余談:ゆるSRE勉強会ですが、今⽇話する内容は全然ゆるくないです。

    View Slide

  3. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    3
    Azure OpenAI Serviceの可⽤性
    本⽇の発表内容

    View Slide

  4. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    4

    1. Azure OpenAI Serviceの概要
    2. TPMとRPMが全ての鍵
    3. まとめ
    4. SRE採⽤してます!
    本⽇のお品書き

    View Slide

  5. Azure OpenAI Serviceの概要
    主に⽤語解説
    1

    View Slide

  6. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    6
    1
    2
    Microsoft版のOpenAIサービス
    ● GPT-3.5、GPT-4などのモデルが利⽤可能。
    マネージドサービス
    ● OpenAIのChatGPTと異なり、MS社が管理。
    ● OpenAIのChatGPTは世界中のユーザーが利⽤しているが、
    こちらはAzure上に⾃分達だけが利⽤するChatGPTを構築できる。
    Azure OpenAI Service概要

    View Slide

  7. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    7
    TPM(Tokens-Per-Minute)
    1分あたりのトークン数
    1分あたりに消費できるTPMに上限
    RPM(Requests-Per-Minute)
    1分あたりのAPI呼び出し回数
    1分あたりのAPIの呼び出し回数に上限
    ‧RPMの値はTPMの値に連動
    ‧1000TPMあたり6RPM
    トークン(⽂字数のようなもの)

    View Slide

  8. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    8
    例:GPT-3.5のTPMの上限値が240K
    同⼀サブスクリプション->同⼀リージョン->
    同⼀モデルの全てのリソースで共有
    図ではGPT-3.5のリソースが2つあるため、
    TPMを120Kずつ按分してる。
    TPM
    サブスクリプション
    リージョン
    モデルに割り当てられたTPM: 240K
    リソースA
    TPM: 120K
    リソースB
    TPM: 120K

    View Slide

  9. TPMとRPMが全ての鍵
    2
    1分あたりの利⽤上限

    View Slide

  10. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    10
    1
    2
    3
    マネージドサービスなので、基本MS社が管理
    ● CPU、メモリ、ディスクサイズなどは考慮しなくて良い。
    ● TPM/RPMぐらいしかユーザーは調整できない。
    TPM、RPMの上限に近づいているかを気にする
    ● 上限値の80% 〜 90%程度でアラートを出すように設定しておき、対策を打つ。
    TPM/RPMの拡張申請
    ● 需要が多すぎて、現在承認できないことをMS社がアナウンスしている。
    TPMとRPMが全ての鍵

    View Slide

  11. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    11
    GPT-3.5
    デフォルトのTPM上限値
    240K
    RPMの上限値は1440
    GPT-4
    デフォルトのTPM上限値
    GPT-4: 20K
    GPT-4-32K: 60K
    RPMの上限値
    ‧GPT-4: 120
    ‧GPT-4-32K: 360
    代表的なモデル

    View Slide

  12. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    リージョンA
    Azure OpenAI
    ゆるSRE勉強会 #1
    12
    複数リージョンにリクエストを振り分ける
    リージョンB
    Azure OpenAI
    リージョンC
    Azure OpenAI
    Application

    View Slide

  13. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    13
    項⽬ 概要
    1 カナダ東部
    2 ⽶国東部
    3 ⽶国東部2
    4 フランス中部
    5 東⽇本
    6 英国南部
    7 ⽶国中北部
    GPT-3.5(0613)を利⽤できるリージョン ※2023/08現在

    View Slide

  14. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    14
    項⽬ 概要
    1 カナダ東部
    2 ⽶国東部
    3 ⽶国東部2
    4 フランス中部
    5 東⽇本
    6 英国南部
    GPT-4(0613)を利⽤できるリージョン ※2023/08現在

    View Slide

  15. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    15
    GPT-3.5
    全リージョンを利⽤した場合の
    TPM上限値の最⼤値
    1680K
    GPT-4
    全リージョンを利⽤した場合の
    TPM上限値の最⼤値
    ‧GPT-4: 120K
    ‧GPT-4-32K: 360K
    複数リージョンを活⽤した場合

    View Slide

  16. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    16
    1
    2
    GPT-3.5を使うことも選択肢として考える
    ● GPT-4を複数リージョン運⽤しても上限値に達するなら、
    GPT-3.5を検討。
    将来的には利⽤できるようになる可能性
    ● 現時点ではGPT-4のTPMが⾜りなくても、毎⽉のように対応リージョン
    が増えているので、将来的にGPT-4を利⽤できる可能性がある。
    GPT-4のTPMが少ない

    View Slide

  17. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    17
    1
    2
    本番とステージングでリージョンを分ける場合
    ● 1リージョン1リソースで運⽤していて、環境ごとに使うリソースを分け
    る場合には、ステージングだけで1リージョン使ってしまう。本番で利
    ⽤できるリージョンは減ってしまう。
    GPT-4が利⽤できないリージョンがある
    ● GPT-4は利⽤申請が別途必要。承認が下りても、ドキュメント上で利⽤
    できると記載があるリージョン全てで、利⽤承認が下りるわけではな
    い。(需要が多いので、⼀部リージョンに限定して承認される。)
    複数リージョン活⽤の課題

    View Slide

  18. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    18
    1
    2
    3
    MS社がリクエストログを保持している
    ● 不正使⽤の監視のために、MS社が30⽇間ログを保持。
    MS社が保持するログはリソースがあるリージョンに保管
    ● 海外リージョンを使うと、顧客が⼊⼒した内容が海外に保管されます。
    ● サービスの利⽤規約によっては、Azure OpenAI Serviceを使う機能の
    み、利⽤規約を別途設けた⽅が良いです。
    MS社にログを保持しないように申請できる
    ● 申請はできますが、承認のハードルが⾮常に⾼いです。
    不正使⽤の監視にまつわる考慮事項

    View Slide

  19. まとめ
    3

    View Slide

  20. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    20

    TPMとRPMの監視が⼤事

    複数リージョン対応でTPM/RPMの拡張

    複数リージョン利⽤にも課題有り
    制限が多くある中で、⼯夫してAI活⽤
    まとめ

    View Slide

  21. SRE採⽤してます!
    4

    View Slide

  22. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    主に関わるサービス
    ゆるSRE勉強会 #1
    22


    View Slide

  23. confidential
 Copyright © 2023 Studist Corporation. all rights reserved.

    ゆるSRE勉強会 #1
    23
    1
    2
    3
    EKS on Fargateでアプリを運⽤
    ● EC2は使っていません。可能な限りマネージドサービスを活⽤しようと
    いう考えが強いです。パブリッククラウドのみです。
    フルリモート
    ⾼いレベルでディスカッションができます
    ● 他のエンジニアから学べることが多いです。
    SRE採⽤してます!

    View Slide

  24. https://studist.jp/


    View Slide