$30 off During Our Annual Pro Sale. View Details »

【Oracle Cloud ウェビナー】AIインフラ最前線―サイバーエージェントのAI技術革新を支える最先端の AIインフラストラクチャー技術

【Oracle Cloud ウェビナー】AIインフラ最前線―サイバーエージェントのAI技術革新を支える最先端の AIインフラストラクチャー技術

Oracle Cloud ウェビナーシリーズ情報: https://oracle.com/goto/ocws-jp
セッション動画: https://go.oracle.com/ocws-jp-ondemand

oracle4engineer
PRO

August 28, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. Oracle Cloud ウェビナーシリーズ
    AIインフラ最前線
    サイバーエージェントのAI技術革新を支える最先端のインフラストラクチャー技術
    OracleのAIへの取り組みに関する最新情報
    西井 雄飛
    AI推進室
    日本オラクル株式会社

    View Slide

  2. 生成AIの企業実用化に向けて
    “Hello, how are” 大規模言語モデル “you”
    実用化課題例 対策手法例
    プロンプトエンジニアリング
    ファインチューニング
    ハルシネーション
    ディープフェイク
    データプライバシー
    サイバーセキュリティ
    著作権問題
    AI倫理性
    責任あるAI
    先進技術人材の枯渇
    データサイエンティスト
    データエンジニア
    インフラエンジニア
    ネットワークエンジニア
    Copyright © 2023, Oracle and/or its affiliates
    2

    View Slide

  3. あらゆるビジネス・ニーズと課題に応える、Oracle AIのポートフォリオ
    AI Apps
    HCM | ERP | SCM | CX | Industry Solutions
    最新のAIテクノロジーをクラウドネイティブ SaaSに組み込み。
    高性能、高セキュアなAIを開発不要ですぐに、低コストで使用。
    Generative AI Service
    OCI Generative AI
    顧客のデータを完全に分離した、セキュアで高性能な企業向け向け生成AIサービス。
    AI services
    Digital Assistant | Language
    Speech | Vision | Anomary Detection
    Document Understanding | Forcasting
    アプリケーションにすぐ組み込み可能な、学習済みのモデルを提供。AIを活用したアプリケ
    ーションの開発期間を短縮し、より早く市場投入することが可能。
    ML Services
    OCI Data Science | OCI Data Labeling
    ML in Oracle Database (Oracle & MySQL)
    AIモデルの開発を効率的に行い、モデルとデータを適切に管理する環境を提供。
    データベースのデータをすぐに機械学習で活用できる機能を提供。
    AI Infrastructure
    OCI GPU | OCI Supercluster
    3万以上のGPUを低遅延ネットワークで接続可能な、スケーラブルで強力なAI基盤を提
    供。大規模計算も、より短期間で、より低コストでのAI開発が可能。
    Copyright © 2023, Oracle and/or its affiliates
    3

    View Slide

  4. Oracle Cloud Infrastructure (OCI)
    アーキテクチャ上の特徴とメリット
    従来型とモダン双方のワークロードに
    圧倒的な高コストパフォーマンスで
    クラウドのメリットを提供
    ミッションクリティカルデータベース
    データベースのネイティブなクラスタリング機能の対応。
    ペタバイトクラスデータベース/数千コアへのスケールアップ。
    従来型アプリケーション
    アーキテクチャの変更なしに、クラウドのメリットを享受。
    必要に応じてクラウド上でモダナイズ。
    HPC / 機械学習
    容易なスケールアウトとダウン (2万CPU/数千GPU) 。
    超低遅延ノード間通信による比類無き性能価格。
    クラウドネイティブアプリケーション
    スケールアウト型、ストリーミング、非構造型データ、
    コンテナやサーバーレスによるアジャイル開発。
    ネットワーク集約型アプリケーション
    競合の無いネットワークでオンプレミスと変わらぬネットワーク遅延。
    業界で最も低いアウトバンド料金。
    高度な
    セキュリティ
    • オフボックス (Off-box) 仮想化技術でデータ
    プレーンとコントロールプレーンを分離
    • デフォルトセキュアの設計ポリシー
    超低遅延な
    ネットワーク
    • Leaf & Spine型トポロジー (CLOS NW)
    • L2 ネットワークの仮想化
    • RDMA (RoCE)
    効率的な
    リソースプール
    • 汎用リソースプールによる高効率・高密度デー
    タセンター
    真のElasticity
    (伸縮自在性)
    • 無段階伸縮可能なシェイプ
    • 性能に影響のない高速スケールアップ・ダウン
    業界最強の
    データ管理技術
    • コンバージドデータベース (SQL/noSQL)
    • 高可用性技術
    • 完全自動運用技術
    分散クラウド
    アーキテクチャ
    • 真のハイブリッドクラウド
    • パートナービジネスモデル
    • 他のクラウドとの相互運用性
    Copyright © 2023, Oracle and/or its affiliates
    4

    View Slide

  5. AI InfrastructureとしてOCIを選択いただいている先進AI企業様(一例)
    弊社HPより抜粋、作成
    Screen Only
    Copyright © 2023, Oracle and/or its affiliates
    5

    View Slide

  6. View Slide

  7. 株式会社サイバーエージェント


    CIU Technical Lead
    !"#$"$%&'(')*
    サイバーエージェントのAI技術革新を支える


    最先端のAIインフラストラクチャー技術
    AIインフラ最前線 ―
    長谷川 誠 (@makocchi)

    View Slide

  8. 2
    Makoto Hasegawa
    Working at // CIU, CyberAgent, Inc
    Currently //


    Develop and maintain private OpenStack cloud.


    Develop and maintain Kubernetes as a Service platform.


    Kubernetes organization member (sig-docs-ja)


    CKA / CKAD / CKS
    Job Title // Technical Lead Infrastructure Engineer
    WHO am I
    Twitter // @makocchi


    Facebook // makocchi0923
    Hobby // Playing bass

    View Slide

  9. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    3
    はじめに
    本資料及び発表内容は


    株式会社サイバーエージェントとしての見解ではなく


    発表者の個人的な見解となります


    あらかじめご了承ください
    !"#$%&"'
    ()

    View Slide

  10. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    4
    本日のアジェンダ
    サイバーエージェントグループインフラストラクチャーユニット(CIU)
    のAI技術に関する取組み
    サイバーエージェントに求められるAIインフラストラクチャー
    AIインフラストラクチャーにおける現時点での課題と
    ハイブリッド化に向けた挑戦

    View Slide

  11. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    5
    *+,-.-/01234-5+1678279:;-<=>2?$"@AB


    &"DEFGHIJKL

    View Slide

  12. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    6
    サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み
    サイバーエージェントグループインフラストラクチャーユニットについて


    サイバーエージェントグループ全体に対して技術的支援を行う横軸横断組織


    CyberAgent group Infrastructure Unit


    2021年4月に発足
    MNNOPQRRSSSTUVWXYZ[X\NTU]T^ORUZYXXYPRPOXU_Z`RX\[_\XXYabaaRNXZcRU_dTMNc`
    CIUについてはもしよろしければこちらのWebサイトも御覧ください

    View Slide

  13. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    7
    サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み
    MNNOPQRRSSSTUVWXYZ[X\NTU]T^OR\XSPReXNZ_`R_efaghgh
    先日このような発表をさせていただきました


    CIU はオンプレミス環境で機械学習基盤(ML Platform)を


    独自に開発・運用しています


    社内の AI エンジニア向けに最適化されており、安価で
    GPU を手軽に使える環境を提供しています

    View Slide

  14. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    8
    サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み
    CIU が提供する機械学習基盤 ML Platform について


    GPU を搭載したノードでクラスタ構築


    CPU : over 5500 cores


    ノード間 Interconnect 400 Gbps


    GPU は H100/A100/A2/T4 を提供


    ⭐ Kubernetes ベースの基盤 ⭐


    Kubernetes 上でマルチテナント環境を提供


    マネージド Jupyter Nodebook の提供 👆 ML Platformのロゴ

    View Slide

  15. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    9
    サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み
    CIU が提供する機械学習基盤 ML Platform について
    GUI はこんな感じ

    View Slide

  16. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    なぜ Kubernetes なのか?


    Kubernetes の可用性やエコシステムに乗っかりたかった


    ジョブ機能やモデルデプロイシステムと相性が良かった(Kube
    fl
    ow など)


    チームメンバーの多くが Kubernetes に長けていた


    Kubernetes と連携するたくさんの内製サービスを開発してきた


    Kubernetes as a Service 開発者とほぼ同じメンバー


    技術的なチャレンジ


    問題に対して解決まで持っていくチームの過去実績・技術力があった


    今後 AI 系の開発が大規模になっていくため得意な領域の知見を溜めたい
    10
    サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み

    View Slide

  17. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    11
    *+,-.-/012FijklI&"+1678279:;-

    View Slide

  18. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    12
    サイバーエージェントに求められるAIインフラストラクチャー
    先日このような発表をさせていただきました


    大規模言語モデルについて Hugging Face で公開されま
    した。パラメータ数毎にモデルを公開しています。
    MNNOPQRRSSSTUVWXYZ[X\NTU]T^OR\XSPReXNZ_`R_efagmnm
    MNNOPQRRMd[[_\[oZUXTU]RUVWXYZ[X\N

    View Slide

  19. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    13
    サイバーエージェントに求められるAIインフラストラクチャー
    大規模言語モデル(Open CALM)については様々なサービ
    スで使われ始めており、広告のテキスト生成等で活用さ
    れています。


    独自のモデルを使うことで、これまでよりも大量にテキ
    スト生成を行うことが可能となりました。(160%に向上)
    MNNOPQRRSSSTUVWXYZ[X\NTU]T^OR\XSPReXNZ_`R_efagpbn

    View Slide

  20. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    14
    このような大規模言語モデルを開発していく上で必要になってくる AI インフラとは


    複数 GPU ノードをまたぐことができる分散学習が動く基盤


    1 台の物理ノードに載せられる GPU はせいぜい 8-16 枚程度


    100 枚使いたい場合は複数のノードが必要になる


    Interconnect(ノード間接続)は非常にハイスペックなものが必要


    帯域幅が広く、パケットロスの少ない(ロスレス)ネットワーク


    各プロセス間で計算結果の膨大な同期が行われる


    Kubernetes の Pod が複数のネットワークを使える必要がある


    通常の外部通信用ネットワーク・Interconnect 用ネットワーク
    サイバーエージェントに求められるAIインフラストラクチャー
    技術的な挑戦

    View Slide

  21. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    15
    複数 GPU ノードをまたぐことができる分散学習が動く基盤


    分散学習のジョブを実行できるようにするために Kubernetes のエコシステムを用いて新規開発・実装


    MPI Operator (https://github.com/kube
    fl
    ow/mpi-operator)


    Kueue (https://github.com/kubernetes-sigs/kueue)


    分散学習ジョブの作成リクエストをキューイング


    テナント毎に利用可能な GPU やリソース量を制限


    kube-scheduler の Coscheduling プラグインを導入し、Gang Scheduling を実現


    詳細は https://github.com/kubernetes-sigs/scheduler-plugins/blob/master/pkg/coscheduling/README.md


    Gang Scheduling = すべての Pod がスケジューリング可能になるまでスケジューリングを待機する
    サイバーエージェントに求められるAIインフラストラクチャー

    View Slide

  22. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    16
    Interconnect(ノード間接続)は非常にハイスペックなものが必要


    サーバー内の GPU 同士は NVLink で高速通信が可能だが、サーバーをまたぐ GPU 通信には RDMA が必要


    RDMA = CPU を介さずリモートホストの GPU メモリに直接アクセス


    RDMA のネットワークには RoCEv2 を採用


    他の手段としては In
    fi
    niband があるが知見が少なかったので Ethernet を採用


    Interconnect は 400GbE を採用
    サイバーエージェントに求められるAIインフラストラクチャー

    View Slide

  23. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    17
    Interconnect(ノード間接続)は非常にハイスペックなものが必要
    サイバーエージェントに求められるAIインフラストラクチャー

    View Slide

  24. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    18
    Kubernetes の Pod が複数のネットワークを使える必要がある


    Pod は通常では 1 つの NIC のみアタッチされる


    外部通信用の NIC と Interconnect 用の NIC の両方をアタッチする必要がある


    Interconnect 用の NIC は SR-IOV で仮想化し、SR-IOV Device Plugin で Kubernetes に認識させる


    Pod へのアタッチは SR-IOV CNI を使用する


    Multus CNI を使用して複数の NIC を Pod にアタッチしている


    https://github.com/k8snetworkplumbingwg/multus-cni
    サイバーエージェントに求められるAIインフラストラクチャー

    View Slide

  25. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    19
    &"+1678279:;-FqrIstuvBwxy


    z+{|>}~F•r€•‚

    View Slide

  26. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    20
    現在我々が課題と感じている点


    昨今の AI ブームにより、GPU を確保することが非常に困難になりつつあると感じています


    最新の GPU を購入したくても購入できない・購入できても納期が半年から1年後に・・など


    自前で GPU を確保できないならば、Public Cloud のリソースを使えばいいのでは?


    最新の GPU は Public Cloud で使えるようになるまで通常は発売後数ヶ月はかかる


    使えたとしても料金は高いので、長い時間かけて学習すればするほどキャッシュアウトが大きくなる


    全世界のユーザーから GPU リソースの奪い合いが起こっているため、使いたい時に使えないことも想定される


    我々としてはスピード感を持って AI エンジニアに対して環境を提供したい
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
    困った・・

    View Slide

  27. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    21
    さらにこんな課題も・・・


    オンプレミスの機器に故障があった場合に、一部の GPU が使えなくなることでジョブが停滞し、ビジネスの開発速度
    に影響が出ることも想定される


    昨日まで使えてたのに・・みたいに利用者の体験(UX)も悪くなる


    突発的な GPU の大量利用の要求があった場合に、現状のオンプレミスの ML Platform では応えることができない


    そのような場合には Public Cloud を利用してもらうことになるが、利用者側に Public Cloud の知識がある程度必要
    になってくるので、敷居が高くなるケースも
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
    どうすれば・・

    View Slide

  28. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    22
    課題を解決すべく、ML Platform のハイブリッド化を検証中


    ハイブリッド化 = オンプレミス + Public Cloud


    Public Cloud の GPU インスタンスを Kubernetes のノードとして登録することでオンプレミスの Kubernetes クラス
    ターを延伸することができれば、いくつかの課題は解決できるのでは?


    一時的に故障したノードが発生したら同じようなスペックの GPU ノードを追加すれば、利用者の体験を損なわずに
    いけるのでは?


    突発的に GPU の需要が増えた場合、今までの操作感のまま Public Cloud 側のリソースを使うことが可能なのでは?


    GPU を購入してから納品されるまでの間のつなぎとして、Public Cloud のリソースを割り当てることができるので
    は?
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
    これは行けるのでは?

    View Slide

  29. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    23
    課題を解決すべく、ML Platform のハイブリッド化を検証中


    検証を進めるにあたって、Public Cloud のベンダーとしては Oracle Cloud を最初に選定しました


    理由としては Oracle Cloud の GPU 環境は RDMA や RoCEv2 で構成することが可能で、我々の作った構成に近く分
    散学習が可能である点が挙げられます


    また NVIDIA 社とのパートナーシップを結んでいる点で GPU に関してより技術的な相談ができそうだと判断
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
    MNNOPQRRSSST]YZU`XTU]cRU`]deRMOUR
    ML Platform と同じ技術(RDMA, RoCEv2)で構成されている! 👉

    View Slide

  30. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    24
    課題を解決すべく、ML Platform のハイブリッド化を検証中
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
    ƒdWXY\XNXP


    'ZPNXY
    ƒdWXY\XNXP


    „]eX
    ƒdWXY\XNXP


    „]eX
    ɾɾɾ
    …15†‡8C'%Cˆ`ZNo]Yc ‰YZU`XC$`]deC"\oYZPNYdUNdYX
    ƒdWXY\XNXP


    „]eX
    ɾɾɾ
    クラウド間は FastConnect で相互接続
    Š
    ˆ@
    Š
    ˆ@
    Š
    ˆ@
    ‹$„
    *{Œ>2

    View Slide

  31. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    25
    課題を解決すべく、ML Platform のハイブリッド化を検証中


    分散学習の場合は各環境で閉じて行わせる予定
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
    ƒdWXY\XNXP


    „]eX
    ƒdWXY\XNXP


    „]eX
    ɾɾɾ
    …15†‡8C'%Cˆ`ZNo]Yc ‰YZU`XC$`]deC"\oYZPNYdUNdYX
    ƒdWXY\XNXP


    „]eX
    ɾɾɾ
    Š
    ˆ@
    Š
    ˆ@
    Š
    ˆ@
    ƒdWXY\XNXP


    „]eX
    Š
    ˆ@
    •Ž•• •Ž••
    ƒdWXY\XNXP


    „]eX
    ƒdWXY\XNXP


    „]eX
    ɾɾɾ
    …15†‡8C'%Cˆ`ZNo]Yc ‰YZU`XC$`]deC"\oYZPNYdUNdYX
    ƒdWXY\XNXP


    „]eX
    ɾɾɾ
    Š
    ˆ@
    Š
    ˆ@
    Š
    ˆ@
    ƒdWXY\XNXP


    „]eX
    Š
    ˆ@
    ‘B’“-1B•Ž••”•–—˜

    View Slide

  32. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    26
    課題を解決すべく、ML Platform のハイブリッド化を検証中


    Oracle Cloud Infrastructure(OCI) 環境で分散学習できるかどうかは現在絶賛検証中です


    RoCEv2 で分散学習できる環境は他の Public Cloud では聞いたことが無いので、パフォーマンスは非常に期待でき
    るのではと思っています


    OCI 環境の GPU インスタンスを ML Platform の Kubernetes ノードとして認識させることは検証済み


    ML Platform からの操作で OCI 上の Kubernetes ノードでジョブの実行も問題なくできました 💪
    AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦

    View Slide

  33. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    27
    本日のまとめ
    CIU では AI 事業を支えるべく ML Platfrom を開発・運用し事業の成長を支えています


    Kubernetes の知見を活かし、エコシステムを利用しながら技術的な挑戦を続けています


    ML Platform に欠かせないネットワークの性能も妥協することなく、国内ではあまり例が無い
    400GbE で構成、RDMA を使った高速な分散学習基盤を提供しています


    現時点で運用上の課題と思われる点はハイブリッド構成にすることで解決できる可能性がある
    ので積極的に検証中です


    このような面白いチャレンジができる環境ですので、弊社に興味がある方は是非カジュアル面
    談などで交流しましょう!


    特にネットワークエンジニアの方!お待ちしています!

    View Slide

  34. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02
    28
    より Deep Dive したい方は
    こちらの発表も合わせて御覧ください
    https://www.janog.gr.jp/meeting/janog52/aiml400/
    https://cadc.cyberagent.co.jp/2023/sessions/distributed-ml-with-kubernetes/

    View Slide

  35. 株式会社サイバーエージェント


    CIU Technical Lead
    !"#$"$%&'(')*
    サイバーエージェントのAI技術革新を支える


    最先端のAIインフラストラクチャー技術
    AIインフラ最前線 ―
    長谷川 誠 (@makocchi)
    ご清聴ありがとうございました!

    View Slide