Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NVIDIA AI Enterprise for Red Hat OpenShift

NVIDIA AI Enterprise for Red Hat OpenShift

The collaboration of Red Hat OpenShift and NVIDIA AI Enterprise can accelerate the development and deployment of new AI-powered applications.

https://www.redhat.com/ja/blog/red-hat-and-nvidia-accelerate-enterprise-ai-projects-gpus-dpus-and-mlops

以下の登壇で利用した資料です。
■NVIDIA AI DAYS 2022
https://www.ai-days2022.com/?r=nvp

A2-1 10:00 - 10:40
「運用もリスクも最小化、企業のための最先端AIインフラ」

Shingo.Kitayama

June 24, 2022
Tweet

More Decks by Shingo.Kitayama

Other Decks in Technology

Transcript

  1. 1
    NVIDIAとRed Hatの
    AI対応プラットフォーム
    Shingo Kitayama
    レッドハット株式会社
    Solution Architect
    Copyright © 2022 Red Hat, Inc. Red Hat, and the Red Hat logo are trademarks or registered trademarks of Red Hat, Inc.

    View Slide

  2. NVIDIA AI Enterprise with OpenShift
    NVIDIA AI Enterprise
    NVIDIAが認定、ライセンス、サポートを提
    供する包括的なクラウドネイティブAIソフト
    ウェアスイートです。
    Red Hat OpenShiftとNVIDIA-Certified
    Systems上で動作することが認定されてい
    ます。
    Red Hat OpenShift
    Red Hatが提供するエンタープライズ対応
    のコンテナプラットフォームです。
    フルスタックの自律運用と開発者向けのセ
    ルフサービス・プロビジョニングを提供して
    おり、クラウドやオンプレミスなど様々な環
    境に対応しています。
    ref. https://resources.nvidia.com/en-us-nvidia-ai-enterprise/nvaie-red-hat-overview

    View Slide

  3. AI活用におけるRed Hat OpenShiftの魅力
    インフラリソースへの
    セルフサービスアクセス
    Self-Service Access to
    Infrastructure Resources
    MLOpsパイプラインの
    安全な自動化
    Securely Automate MLOps Pipelines
    Kubernetesを活用した
    アプリケーション開発
    Kubernetes-Powered
    Application Development
    コンテナ化されたAIツールやイ
    ンフラリソースを利用するため
    のセルフサービスと一貫したク
    ラウド体験
    OpenShift GitOpsやPipelines
    を活用した機械学習パイプライ
    ンにおける学習/推論フェーズ
    の自動化機能の拡張
    GPUに最適化されたコンテナイ
    メージを使って、ML/DLモデル
    を容易に開発・デプロイ・スケー
    ルできる環境を提供

    View Slide

  4. インフラリソースへの
    セルフサービスアクセス
    Self-Service Access to Infrastructure Resources

    View Slide

  5. NVIDIA AI Enterprise Software Suite
    OpenShiftでのRDMAおよびGPU
    Direct RDMAワークロードを有効化し、
    ネットワーク関連のNVIDIAコンポーネン
    ト管理を自動化します
    NVIDIA Network Operator
    GPUのプロビジョニングに必要な
    NVIDIA Driver、Kubernetes Device
    PluginなどのNVIDIAソフトウェアコン
    ポーネント管理を自動化します
    NVIDIA GPU Operator
    AIのCloud-Native Deployment
    に欠かせないインフラリソース管理
    の完全自動化
    Self-Service Access to
    Infrastructure Resources

    View Slide

  6. GPUリソースの取り扱い
    Self-Service Access to
    Infrastructure Resources
    仮想化におけるGPUリソースの取り扱い OpenShiftにおけるGPUリソースの取り扱い
    NVIDIA-Certified Systems
    NVIDIA GPU
    Hypervisor
    vGPU vGPU
    Guest VM
    NVIDIA Driver
    Applications
    Guest VM
    NVIDIA Driver
    Applications
    NVIDIA Virtualization Software
    NVIDIA-Certified Systems
    NVIDIA GPU
    GPU Operator
    NVIDIA
    Container Runtime
    Container
    Applications
    NVIDIA Driver
    NVIDIA GPU
    NVIDIA Kubernetes
    Device Plugin
    NVIDIA GPU
    Monitoring
    Container
    Applications
    GPUリソース管理の
    完全自動化
    互換性維持の
    複雑化

    View Slide

  7. NVIDIA GPU Operator
    NVIDIA-Certified Systems
    Self-Service Access to
    Infrastructure Resources
    NVIDIA コンテナランタイムと連携し、コンテナを介して
    NVIDIAドライバを提供します (*詳細)
    NVIDIA Driver
    Kubernetesクラスタの各ノードにあるGPUの状態を管理し、
    コンテナ起動時のGPUを割り当てます
    NVIDIA Kubernetes Device Plugin
    DCGM(Data Center GPU Manager)-exporterを利用して、
    NVIDIA GPUデバイスの監視(ヘルスモニタリング、ポリ
    シー、グループ管理など)を行います
    NVIDIA GPU Monitoring

    View Slide

  8. Operator Framework
    Self-Service Access to
    Infrastructure Resources
    ref. https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/openshift/install-gpu-ocp.html#installing-the-nvidia-gpu-operator-by-using-the-web-console
    OpenShift Web UIの「Operator Hub」から数クリックで導入できます
    OpenShift Web UIにおける
    GPUリソースの可視化
    1クリックインストール

    View Slide

  9. MLOpsパイプラインの
    安全な自動化
    Securely Automate MLOps Pipelines

    View Slide

  10. MLOpsを支えるRed Hatのサービス
    Securely Automate
    MLOps Pipelines
    (OpenShift Pipelines)
    KubernetesネイティブなCI/CDパイ
    プライン作成のフレームワーク
    (Red Hat AMQ Streams)
    スケーラビリティに優れた分散メッ
    セージキュー
    (Red Hat OpenShift Data Science)
    AI/MLツール運用の自動化・セルフ
    サービス化したセット
    (Red Hat Quay)
    分散型コンテナイメージレジストリ
    (OpenShift GitOps)
    KubernetesネイティブなGitOps
    ベースのCDツール
    (Red Hat OpenShift Data Foundation)
    コンテナ専用のソフトウェア・デファ
    インド・ストレージ(SDS)

    View Slide

  11. MLOpsのパイプライン
    Securely Automate
    MLOps Pipelines
    どのような機械学習モデルを作るためにも、データの準備と収集、モデルの開発(学習)、モデルの展開と兆候の監視
    (推論)というサイクルは一貫しています
    推論フェーズ
    (Serving)
    学習フェーズ
    (Training)
    Step.1 | Model Development
    Step.2 | ML model training pipelines
    Step.3 | ML models serving pipelines
    Step.4 | Monitoring Validation

    View Slide

  12. 学習(Model Training)フェーズ
    Securely Automate
    MLOps Pipelines
    Data Store
    Model
    Development
    ML
    Model
    Model
    Store
    Model
    Image
    Test
    Step.2 | ML model training pipelines
    Step.1 | Model Development
    Red Hat OpenShift上の
    Jupyter notebooksを使
    い機械学習モデルを構
    築します
    【OpenShift Pipelines】
    イベント駆動の継続的インテグレーションによって、機械学習モデルをコン
    テナイメージ化します
    ▶ Saving: デプロイ準備ができたモデルをModel Storeに保存
    ▶ Converting: モデルをコンテナイメージに変換
    ▶ Testing: モデルのイメージをテストして機能を確認
    ▶ Storing: コンテナレジストリに確認済みのコンテナイメージを保存
    Image
    Registry
    OpenShift Pipelines by

    View Slide

  13. 推論(Model Serving)フェーズ
    Securely Automate
    MLOps Pipelines
    Configuration
    Repository
    (Manifests)
    Trigger
    ML Service
    Intelligent
    App
    Step.4 | Monitoring validation
    Step.3 | ML models serving pipelines
    PrometheusやGrafana、サード
    パーティツールを使い、学習モデ
    ルによる推論のパフォーマンスを
    監視し、必要に応じて再トレーニ
    ングやデプロイを行います
    【OpenShift GitOps】
    マニフェストを監視し、機械学習モデルを安全にデプロイします
    ▶ Configuring: Gitリポジトリ経由での構成設定
    ▶ Monitoring:設定用マニフェストファイルの変更差分を監視
    ▶ Triggering: MLサービス上のモデルを更新
    ▶ Deploying: EdgeやDatacenter、クラウドなどに展開
    Monitor
    drift
    OpenShift GitOps by
    Deploy

    View Slide

  14. Kubernetesを活用した
    アプリケーション開発
    Kubernetes-Powered Application Development

    View Slide

  15. OpenShiftのInstall Type
    Kubernetes-Powered
    Application Development
    NVIDIA-Certified Systems
    NVIDIA GPU
    RHEL
    NVIDIA-Certified Systems
    OpenShift
    NVIDIA GPU
    RHEL / RHCOS
    NVIDIA-Certified Systems
    OpenShift
    NVIDIA GPU
    RHEL / RHCOS
    Hypervisor (VMware)
    NVIDIA AI Enterprise
    物理マシン
    OS/Hypervisor
    仮想マシン
    TensorFlow PyTorch
    NVIDIA AI Enterprise
    TensorFlow PyTorch
    NVIDIA AI Enterprise
    TensorFlow PyTorch
    Container
    Orchestrator
    Container
    Container Runtime(Podman)
    1. Virtualization 2. Bare-Metal
    N/A N/A

    View Slide

  16. AI開発のコンテナサポート
    Kubernetes-Powered
    Application Development
    NVIDIA-Certified Systems
    OpenShift
    NVIDIA GPU
    RHEL / RHCOS
    NVIDIA AI Enterprise
    TensorFlow PyTorch
    NVIDIA AI Enterprise
    に含まれるサポート サービス開発の
    ランタイム
    Application Runtimes
    Python Java
    AI開発専用の
    フレームワーク
    AI and data science
    frameworks:
    - TensorFlow
    - PyTorch
    - NVIDIA TAO Toolkit
    - NVIDIA Triton
    Inference Server
    - NVIDIA TensorRT
    - NVIDIA RAPIDS
    Red Hat OpenShift
    に含まれるサポート
    Application Streams:
    - PHP
    - Python
    - Perl
    - Node.js
    - Ruby
    - OpenJDK
    - Quarkus
    - MySQL / MariaDB
    etc…

    View Slide

  17. NVIDIA AI Enterprise 2.0のサポートOS
    Kubernetes-Powered
    Application Development
    ref. https://docs.nvidia.com/ai-enterprise/latest/product-support-matrix/index.html
    Install Type Hypervisor or Bare-Metal OS Guest OS Support
    Virtualization VMware vSphere Hypervisor (ESXi)
    Enterprise Plus Edition 7.0 Update 2 or 3
    > Ubuntu 20.04 LTS
    > Red Hat Enterprise Linux 8.4
    > Red Hat OpenShift 4.9
    Virtualization VMware vSphere 6.7
    Bare-Metal Ubuntu 20.04 LTS
    Bare-Metal Red Hat Enterprise Linux 8.4
    Bare-Metal Red Hat OpenShift 4.9 w/Red Hat Linux CoreOS (RHCOS)
    Install Typeが仮想化(Virtualization)でもベアメタル(Bare-Metal)でも、コンテナ自体は「Ubuntu(20.04 LTS)」また
    は「RHEL(8.4 or RHCOS)」の上で展開されることがサポート要件

    View Slide

  18. RHELの恩恵によるトータルサポート
    Kubernetes-Powered
    Application Development
    OpenShift
    RHEL / RHCOS
    Container
    UBI
    Applications
    Container
    UBI
    Applications
    Container Platform
    Operation System
    Container
    Base Image
    Applications
    Container
    Base Image
    Applications
    Container
    Orchestration
    OS
    Container Image
    コンテナイメージとして展開されるUBIは、RHEL(Red Hat Enterprise Linux)のライフサイクルに基づいてサポートさ
    れます。
    Universal Base Image
    Red Hatのコンテナ実行環境を利
    用する場合、UBIの使用を完全に
    サポート
    OpenShift
    ホストOSであるRHEL/RHCOSの
    サポートを含む
    RHEL
    コンテナランタイムとしての稼働を
    サポート
    ref. https://access.redhat.com/articles/2726611

    View Slide

  19. Conclusion
    NVIDIA AI Enterprise with OpenShift

    View Slide

  20. NVIDIAとRed HatのAI対応プラットフォーム
    NVIDIA AI Enterprise
    NVIDIA-Certified Systems
    インフラリソースへの
    セルフサービスアクセス
    Self-Service Access to
    Infrastructure Resources
    MLOpsパイプラインの
    安全な自動化
    Securely Automate MLOps Pipelines
    Kubernetesを活用した
    アプリケーション開発
    Kubernetes-Powered
    Application Development

    View Slide

  21. linkedin.com/company/red-hat
    youtube.com/user/RedHatVideos
    facebook.com/redhatinc
    twitter.com/RedHat
    22
    Thank you
    Red Hat is the world’s leading provider of enterprise open source
    software solutions. Award-winning support, training, and consulting
    services make Red Hat a trusted adviser to the Fortune 500.

    View Slide

  22. https://www.redhat.com/en/partners/nvidia

    View Slide