Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NVIDIA AI Enterprise for Red Hat OpenShift

NVIDIA AI Enterprise for Red Hat OpenShift

The collaboration of Red Hat OpenShift and NVIDIA AI Enterprise can accelerate the development and deployment of new AI-powered applications.

https://www.redhat.com/ja/blog/red-hat-and-nvidia-accelerate-enterprise-ai-projects-gpus-dpus-and-mlops

以下の登壇で利用した資料です。
■NVIDIA AI DAYS 2022
https://www.ai-days2022.com/?r=nvp

A2-1 10:00 - 10:40
「運用もリスクも最小化、企業のための最先端AIインフラ」

Shingo.Kitayama

June 24, 2022
Tweet

More Decks by Shingo.Kitayama

Other Decks in Technology

Transcript

  1. 1 NVIDIAとRed Hatの AI対応プラットフォーム Shingo Kitayama レッドハット株式会社 Solution Architect Copyright

    © 2022 Red Hat, Inc. Red Hat, and the Red Hat logo are trademarks or registered trademarks of Red Hat, Inc.
  2. NVIDIA AI Enterprise with OpenShift NVIDIA AI Enterprise NVIDIAが認定、ライセンス、サポートを提 供する包括的なクラウドネイティブAIソフト

    ウェアスイートです。 Red Hat OpenShiftとNVIDIA-Certified Systems上で動作することが認定されてい ます。 Red Hat OpenShift Red Hatが提供するエンタープライズ対応 のコンテナプラットフォームです。 フルスタックの自律運用と開発者向けのセ ルフサービス・プロビジョニングを提供して おり、クラウドやオンプレミスなど様々な環 境に対応しています。 ref. https://resources.nvidia.com/en-us-nvidia-ai-enterprise/nvaie-red-hat-overview
  3. AI活用におけるRed Hat OpenShiftの魅力 インフラリソースへの セルフサービスアクセス Self-Service Access to Infrastructure Resources

    MLOpsパイプラインの 安全な自動化 Securely Automate MLOps Pipelines Kubernetesを活用した アプリケーション開発 Kubernetes-Powered Application Development コンテナ化されたAIツールやイ ンフラリソースを利用するため のセルフサービスと一貫したク ラウド体験 OpenShift GitOpsやPipelines を活用した機械学習パイプライ ンにおける学習/推論フェーズ の自動化機能の拡張 GPUに最適化されたコンテナイ メージを使って、ML/DLモデル を容易に開発・デプロイ・スケー ルできる環境を提供
  4. NVIDIA AI Enterprise Software Suite OpenShiftでのRDMAおよびGPU Direct RDMAワークロードを有効化し、 ネットワーク関連のNVIDIAコンポーネン ト管理を自動化します

    NVIDIA Network Operator GPUのプロビジョニングに必要な NVIDIA Driver、Kubernetes Device PluginなどのNVIDIAソフトウェアコン ポーネント管理を自動化します NVIDIA GPU Operator AIのCloud-Native Deployment に欠かせないインフラリソース管理 の完全自動化 Self-Service Access to Infrastructure Resources
  5. GPUリソースの取り扱い Self-Service Access to Infrastructure Resources 仮想化におけるGPUリソースの取り扱い OpenShiftにおけるGPUリソースの取り扱い NVIDIA-Certified Systems

    NVIDIA GPU Hypervisor vGPU vGPU Guest VM NVIDIA Driver Applications Guest VM NVIDIA Driver Applications NVIDIA Virtualization Software NVIDIA-Certified Systems NVIDIA GPU GPU Operator NVIDIA Container Runtime Container Applications NVIDIA Driver NVIDIA GPU NVIDIA Kubernetes Device Plugin NVIDIA GPU Monitoring Container Applications GPUリソース管理の 完全自動化 互換性維持の 複雑化
  6. NVIDIA GPU Operator NVIDIA-Certified Systems Self-Service Access to Infrastructure Resources

    NVIDIA コンテナランタイムと連携し、コンテナを介して NVIDIAドライバを提供します (*詳細) NVIDIA Driver Kubernetesクラスタの各ノードにあるGPUの状態を管理し、 コンテナ起動時のGPUを割り当てます NVIDIA Kubernetes Device Plugin DCGM(Data Center GPU Manager)-exporterを利用して、 NVIDIA GPUデバイスの監視(ヘルスモニタリング、ポリ シー、グループ管理など)を行います NVIDIA GPU Monitoring
  7. Operator Framework Self-Service Access to Infrastructure Resources ref. https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/openshift/install-gpu-ocp.html#installing-the-nvidia-gpu-operator-by-using-the-web-console OpenShift

    Web UIの「Operator Hub」から数クリックで導入できます OpenShift Web UIにおける GPUリソースの可視化 1クリックインストール
  8. MLOpsを支えるRed Hatのサービス Securely Automate MLOps Pipelines (OpenShift Pipelines) KubernetesネイティブなCI/CDパイ プライン作成のフレームワーク

    (Red Hat AMQ Streams) スケーラビリティに優れた分散メッ セージキュー (Red Hat OpenShift Data Science) AI/MLツール運用の自動化・セルフ サービス化したセット (Red Hat Quay) 分散型コンテナイメージレジストリ (OpenShift GitOps) KubernetesネイティブなGitOps ベースのCDツール (Red Hat OpenShift Data Foundation) コンテナ専用のソフトウェア・デファ インド・ストレージ(SDS)
  9. 学習(Model Training)フェーズ Securely Automate MLOps Pipelines Data Store Model Development

    ML Model Model Store Model Image Test Step.2 | ML model training pipelines Step.1 | Model Development Red Hat OpenShift上の Jupyter notebooksを使 い機械学習モデルを構 築します 【OpenShift Pipelines】 イベント駆動の継続的インテグレーションによって、機械学習モデルをコン テナイメージ化します ▶ Saving: デプロイ準備ができたモデルをModel Storeに保存 ▶ Converting: モデルをコンテナイメージに変換 ▶ Testing: モデルのイメージをテストして機能を確認 ▶ Storing: コンテナレジストリに確認済みのコンテナイメージを保存 Image Registry OpenShift Pipelines by
  10. 推論(Model Serving)フェーズ Securely Automate MLOps Pipelines Configuration Repository (Manifests) Trigger

    ML Service Intelligent App Step.4 | Monitoring validation Step.3 | ML models serving pipelines PrometheusやGrafana、サード パーティツールを使い、学習モデ ルによる推論のパフォーマンスを 監視し、必要に応じて再トレーニ ングやデプロイを行います 【OpenShift GitOps】 マニフェストを監視し、機械学習モデルを安全にデプロイします ▶ Configuring: Gitリポジトリ経由での構成設定 ▶ Monitoring:設定用マニフェストファイルの変更差分を監視 ▶ Triggering: MLサービス上のモデルを更新 ▶ Deploying: EdgeやDatacenter、クラウドなどに展開 Monitor drift OpenShift GitOps by Deploy
  11. OpenShiftのInstall Type Kubernetes-Powered Application Development NVIDIA-Certified Systems NVIDIA GPU RHEL

    NVIDIA-Certified Systems OpenShift NVIDIA GPU RHEL / RHCOS NVIDIA-Certified Systems OpenShift NVIDIA GPU RHEL / RHCOS Hypervisor (VMware) NVIDIA AI Enterprise 物理マシン OS/Hypervisor 仮想マシン TensorFlow PyTorch NVIDIA AI Enterprise TensorFlow PyTorch NVIDIA AI Enterprise TensorFlow PyTorch Container Orchestrator Container Container Runtime(Podman) 1. Virtualization 2. Bare-Metal N/A N/A
  12. AI開発のコンテナサポート Kubernetes-Powered Application Development NVIDIA-Certified Systems OpenShift NVIDIA GPU RHEL

    / RHCOS NVIDIA AI Enterprise TensorFlow PyTorch NVIDIA AI Enterprise に含まれるサポート サービス開発の ランタイム Application Runtimes Python Java AI開発専用の フレームワーク AI and data science frameworks: - TensorFlow - PyTorch - NVIDIA TAO Toolkit - NVIDIA Triton Inference Server - NVIDIA TensorRT - NVIDIA RAPIDS Red Hat OpenShift に含まれるサポート Application Streams: - PHP - Python - Perl - Node.js - Ruby - OpenJDK - Quarkus - MySQL / MariaDB etc…
  13. NVIDIA AI Enterprise 2.0のサポートOS Kubernetes-Powered Application Development ref. https://docs.nvidia.com/ai-enterprise/latest/product-support-matrix/index.html Install

    Type Hypervisor or Bare-Metal OS Guest OS Support Virtualization VMware vSphere Hypervisor (ESXi) Enterprise Plus Edition 7.0 Update 2 or 3 > Ubuntu 20.04 LTS > Red Hat Enterprise Linux 8.4 > Red Hat OpenShift 4.9 Virtualization VMware vSphere 6.7 Bare-Metal Ubuntu 20.04 LTS Bare-Metal Red Hat Enterprise Linux 8.4 Bare-Metal Red Hat OpenShift 4.9 w/Red Hat Linux CoreOS (RHCOS) Install Typeが仮想化(Virtualization)でもベアメタル(Bare-Metal)でも、コンテナ自体は「Ubuntu(20.04 LTS)」また は「RHEL(8.4 or RHCOS)」の上で展開されることがサポート要件
  14. RHELの恩恵によるトータルサポート Kubernetes-Powered Application Development OpenShift RHEL / RHCOS Container UBI

    Applications Container UBI Applications Container Platform Operation System Container Base Image Applications Container Base Image Applications Container Orchestration OS Container Image コンテナイメージとして展開されるUBIは、RHEL(Red Hat Enterprise Linux)のライフサイクルに基づいてサポートさ れます。 Universal Base Image Red Hatのコンテナ実行環境を利 用する場合、UBIの使用を完全に サポート OpenShift ホストOSであるRHEL/RHCOSの サポートを含む RHEL コンテナランタイムとしての稼働を サポート ref. https://access.redhat.com/articles/2726611
  15. NVIDIAとRed HatのAI対応プラットフォーム NVIDIA AI Enterprise NVIDIA-Certified Systems インフラリソースへの セルフサービスアクセス Self-Service

    Access to Infrastructure Resources MLOpsパイプラインの 安全な自動化 Securely Automate MLOps Pipelines Kubernetesを活用した アプリケーション開発 Kubernetes-Powered Application Development
  16. linkedin.com/company/red-hat youtube.com/user/RedHatVideos facebook.com/redhatinc twitter.com/RedHat 22 Thank you Red Hat is

    the world’s leading provider of enterprise open source software solutions. Award-winning support, training, and consulting services make Red Hat a trusted adviser to the Fortune 500.