Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Oracle Cloud ウェビナー】AIインフラ最前線―サイバーエージェントのAI技術革新...

【Oracle Cloud ウェビナー】AIインフラ最前線―サイバーエージェントのAI技術革新を支える最先端の AIインフラストラクチャー技術

Oracle Cloud ウェビナーシリーズ情報: https://oracle.com/goto/ocws-jp
セッション動画: https://go.oracle.com/ocws-jp-ondemand

oracle4engineer

August 28, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. 生成AIの企業実用化に向けて “Hello, how are” 大規模言語モデル “you” 実用化課題例 対策手法例 プロンプトエンジニアリング ファインチューニング

    ハルシネーション ディープフェイク データプライバシー サイバーセキュリティ 著作権問題 AI倫理性 責任あるAI 先進技術人材の枯渇 データサイエンティスト データエンジニア インフラエンジニア ネットワークエンジニア Copyright © 2023, Oracle and/or its affiliates 2
  2. あらゆるビジネス・ニーズと課題に応える、Oracle AIのポートフォリオ AI Apps HCM | ERP | SCM |

    CX | Industry Solutions 最新のAIテクノロジーをクラウドネイティブ SaaSに組み込み。 高性能、高セキュアなAIを開発不要ですぐに、低コストで使用。 Generative AI Service OCI Generative AI 顧客のデータを完全に分離した、セキュアで高性能な企業向け向け生成AIサービス。 AI services Digital Assistant | Language Speech | Vision | Anomary Detection Document Understanding | Forcasting アプリケーションにすぐ組み込み可能な、学習済みのモデルを提供。AIを活用したアプリケ ーションの開発期間を短縮し、より早く市場投入することが可能。 ML Services OCI Data Science | OCI Data Labeling ML in Oracle Database (Oracle & MySQL) AIモデルの開発を効率的に行い、モデルとデータを適切に管理する環境を提供。 データベースのデータをすぐに機械学習で活用できる機能を提供。 AI Infrastructure OCI GPU | OCI Supercluster 3万以上のGPUを低遅延ネットワークで接続可能な、スケーラブルで強力なAI基盤を提 供。大規模計算も、より短期間で、より低コストでのAI開発が可能。 Copyright © 2023, Oracle and/or its affiliates 3
  3. Oracle Cloud Infrastructure (OCI) アーキテクチャ上の特徴とメリット 従来型とモダン双方のワークロードに 圧倒的な高コストパフォーマンスで クラウドのメリットを提供 ミッションクリティカルデータベース データベースのネイティブなクラスタリング機能の対応。

    ペタバイトクラスデータベース/数千コアへのスケールアップ。 従来型アプリケーション アーキテクチャの変更なしに、クラウドのメリットを享受。 必要に応じてクラウド上でモダナイズ。 HPC / 機械学習 容易なスケールアウトとダウン (2万CPU/数千GPU) 。 超低遅延ノード間通信による比類無き性能価格。 クラウドネイティブアプリケーション スケールアウト型、ストリーミング、非構造型データ、 コンテナやサーバーレスによるアジャイル開発。 ネットワーク集約型アプリケーション 競合の無いネットワークでオンプレミスと変わらぬネットワーク遅延。 業界で最も低いアウトバンド料金。 高度な セキュリティ • オフボックス (Off-box) 仮想化技術でデータ プレーンとコントロールプレーンを分離 • デフォルトセキュアの設計ポリシー 超低遅延な ネットワーク • Leaf & Spine型トポロジー (CLOS NW) • L2 ネットワークの仮想化 • RDMA (RoCE) 効率的な リソースプール • 汎用リソースプールによる高効率・高密度デー タセンター 真のElasticity (伸縮自在性) • 無段階伸縮可能なシェイプ • 性能に影響のない高速スケールアップ・ダウン 業界最強の データ管理技術 • コンバージドデータベース (SQL/noSQL) • 高可用性技術 • 完全自動運用技術 分散クラウド アーキテクチャ • 真のハイブリッドクラウド • パートナービジネスモデル • 他のクラウドとの相互運用性 Copyright © 2023, Oracle and/or its affiliates 4
  4. 2 Makoto Hasegawa Working at // CIU, CyberAgent, Inc Currently

    // Develop and maintain private OpenStack cloud. Develop and maintain Kubernetes as a Service platform. Kubernetes organization member (sig-docs-ja) CKA / CKAD / CKS Job Title // Technical Lead Infrastructure Engineer WHO am I Twitter // @makocchi Facebook // makocchi0923 Hobby // Playing bass
  5. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 8 サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み CIU が提供する機械学習基盤 ML Platform

    について GPU を搭載したノードでクラスタ構築 CPU : over 5500 cores ノード間 Interconnect 400 Gbps GPU は H100/A100/A2/T4 を提供 ⭐ Kubernetes ベースの基盤 ⭐ Kubernetes 上でマルチテナント環境を提供 マネージド Jupyter Nodebook の提供 👆 ML Platformのロゴ
  6. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 なぜ Kubernetes なのか? Kubernetes の可用性やエコシステムに乗っかりたかった ジョブ機能やモデルデプロイシステムと相性が良かった(Kube

    fl ow など) チームメンバーの多くが Kubernetes に長けていた Kubernetes と連携するたくさんの内製サービスを開発してきた Kubernetes as a Service 開発者とほぼ同じメンバー 技術的なチャレンジ 問題に対して解決まで持っていくチームの過去実績・技術力があった 今後 AI 系の開発が大規模になっていくため得意な領域の知見を溜めたい 10 サイバーエージェントグループインフラストラクチャーユニット(CIU)のAI技術に関する取組み
  7. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 14 このような大規模言語モデルを開発していく上で必要になってくる AI インフラとは 複数 GPU

    ノードをまたぐことができる分散学習が動く基盤 1 台の物理ノードに載せられる GPU はせいぜい 8-16 枚程度 100 枚使いたい場合は複数のノードが必要になる Interconnect(ノード間接続)は非常にハイスペックなものが必要 帯域幅が広く、パケットロスの少ない(ロスレス)ネットワーク 各プロセス間で計算結果の膨大な同期が行われる Kubernetes の Pod が複数のネットワークを使える必要がある 通常の外部通信用ネットワーク・Interconnect 用ネットワーク サイバーエージェントに求められるAIインフラストラクチャー 技術的な挑戦
  8. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 15 複数 GPU ノードをまたぐことができる分散学習が動く基盤 分散学習のジョブを実行できるようにするために Kubernetes

    のエコシステムを用いて新規開発・実装 MPI Operator (https://github.com/kube fl ow/mpi-operator) Kueue (https://github.com/kubernetes-sigs/kueue) 分散学習ジョブの作成リクエストをキューイング テナント毎に利用可能な GPU やリソース量を制限 kube-scheduler の Coscheduling プラグインを導入し、Gang Scheduling を実現 詳細は https://github.com/kubernetes-sigs/scheduler-plugins/blob/master/pkg/coscheduling/README.md Gang Scheduling = すべての Pod がスケジューリング可能になるまでスケジューリングを待機する サイバーエージェントに求められるAIインフラストラクチャー
  9. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 16 Interconnect(ノード間接続)は非常にハイスペックなものが必要 サーバー内の GPU 同士は NVLink

    で高速通信が可能だが、サーバーをまたぐ GPU 通信には RDMA が必要 RDMA = CPU を介さずリモートホストの GPU メモリに直接アクセス RDMA のネットワークには RoCEv2 を採用 他の手段としては In fi niband があるが知見が少なかったので Ethernet を採用 Interconnect は 400GbE を採用 サイバーエージェントに求められるAIインフラストラクチャー
  10. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 18 Kubernetes の Pod が複数のネットワークを使える必要がある Pod

    は通常では 1 つの NIC のみアタッチされる 外部通信用の NIC と Interconnect 用の NIC の両方をアタッチする必要がある Interconnect 用の NIC は SR-IOV で仮想化し、SR-IOV Device Plugin で Kubernetes に認識させる Pod へのアタッチは SR-IOV CNI を使用する Multus CNI を使用して複数の NIC を Pod にアタッチしている https://github.com/k8snetworkplumbingwg/multus-cni サイバーエージェントに求められるAIインフラストラクチャー
  11. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 20 現在我々が課題と感じている点 昨今の AI ブームにより、GPU を確保することが非常に困難になりつつあると感じています

    最新の GPU を購入したくても購入できない・購入できても納期が半年から1年後に・・など 自前で GPU を確保できないならば、Public Cloud のリソースを使えばいいのでは? 最新の GPU は Public Cloud で使えるようになるまで通常は発売後数ヶ月はかかる 使えたとしても料金は高いので、長い時間かけて学習すればするほどキャッシュアウトが大きくなる 全世界のユーザーから GPU リソースの奪い合いが起こっているため、使いたい時に使えないことも想定される 我々としてはスピード感を持って AI エンジニアに対して環境を提供したい AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦 困った・・
  12. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 21 さらにこんな課題も・・・ オンプレミスの機器に故障があった場合に、一部の GPU が使えなくなることでジョブが停滞し、ビジネスの開発速度 に影響が出ることも想定される

    昨日まで使えてたのに・・みたいに利用者の体験(UX)も悪くなる 突発的な GPU の大量利用の要求があった場合に、現状のオンプレミスの ML Platform では応えることができない そのような場合には Public Cloud を利用してもらうことになるが、利用者側に Public Cloud の知識がある程度必要 になってくるので、敷居が高くなるケースも AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦 どうすれば・・
  13. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 22 課題を解決すべく、ML Platform のハイブリッド化を検証中 ハイブリッド化 =

    オンプレミス + Public Cloud Public Cloud の GPU インスタンスを Kubernetes のノードとして登録することでオンプレミスの Kubernetes クラス ターを延伸することができれば、いくつかの課題は解決できるのでは? 一時的に故障したノードが発生したら同じようなスペックの GPU ノードを追加すれば、利用者の体験を損なわずに いけるのでは? 突発的に GPU の需要が増えた場合、今までの操作感のまま Public Cloud 側のリソースを使うことが可能なのでは? GPU を購入してから納品されるまでの間のつなぎとして、Public Cloud のリソースを割り当てることができるので は? AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦 これは行けるのでは?
  14. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 23 課題を解決すべく、ML Platform のハイブリッド化を検証中 検証を進めるにあたって、Public Cloud

    のベンダーとしては Oracle Cloud を最初に選定しました 理由としては Oracle Cloud の GPU 環境は RDMA や RoCEv2 で構成することが可能で、我々の作った構成に近く分 散学習が可能である点が挙げられます また NVIDIA 社とのパートナーシップを結んでいる点で GPU に関してより技術的な相談ができそうだと判断 AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦 MNNOPQRRSSST]YZU`XTU]cRU`]deRMOUR ML Platform と同じ技術(RDMA, RoCEv2)で構成されている! 👉
  15. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 25 課題を解決すべく、ML Platform のハイブリッド化を検証中 分散学習の場合は各環境で閉じて行わせる予定 AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦

    ƒdWXY\XNXP „]eX ƒdWXY\XNXP „]eX ɾɾɾ …15†‡8C'%Cˆ`ZNo]Yc ‰YZU`XC$`]deC"\oYZPNYdUNdYX ƒdWXY\XNXP „]eX ɾɾɾ Š ˆ@ Š ˆ@ Š ˆ@ ƒdWXY\XNXP „]eX Š ˆ@ •Ž•• •Ž•• ƒdWXY\XNXP „]eX ƒdWXY\XNXP „]eX ɾɾɾ …15†‡8C'%Cˆ`ZNo]Yc ‰YZU`XC$`]deC"\oYZPNYdUNdYX ƒdWXY\XNXP „]eX ɾɾɾ Š ˆ@ Š ˆ@ Š ˆ@ ƒdWXY\XNXP „]eX Š ˆ@ ‘B’“-1B•Ž••”•–—˜
  16. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 26 課題を解決すべく、ML Platform のハイブリッド化を検証中 Oracle Cloud

    Infrastructure(OCI) 環境で分散学習できるかどうかは現在絶賛検証中です RoCEv2 で分散学習できる環境は他の Public Cloud では聞いたことが無いので、パフォーマンスは非常に期待でき るのではと思っています OCI 環境の GPU インスタンスを ML Platform の Kubernetes ノードとして認識させることは検証済み ML Platform からの操作で OCI 上の Kubernetes ノードでジョブの実行も問題なくできました 💪 AIインフラストラクチャーにおける現時点での課題とハイブリッド化に向けた挑戦
  17. AIインフラ最前線 ―サイバーエージェントのAI技術革新を支える最先端のAIインフラストラクチャー技術 | 2023.08.02 27 本日のまとめ CIU では AI 事業を支えるべく

    ML Platfrom を開発・運用し事業の成長を支えています Kubernetes の知見を活かし、エコシステムを利用しながら技術的な挑戦を続けています ML Platform に欠かせないネットワークの性能も妥協することなく、国内ではあまり例が無い 400GbE で構成、RDMA を使った高速な分散学習基盤を提供しています 現時点で運用上の課題と思われる点はハイブリッド構成にすることで解決できる可能性がある ので積極的に検証中です このような面白いチャレンジができる環境ですので、弊社に興味がある方は是非カジュアル面 談などで交流しましょう! 特にネットワークエンジニアの方!お待ちしています!