Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介

 NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介

Takato Ueno

May 02, 2023
Tweet

More Decks by Takato Ueno

Other Decks in Research

Transcript

  1. NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介
    上野 孝斗 / Takato Ueno, 滋賀大学大学院DS研究科博士前期課程1年 | 2023/4/28

    View full-size slide

  2. • 自己紹介と学生アンバサダー活動計画の共有
    • RAPIDSの紹介 | GPU Accelerated Data Science
    • KAMONOHASHIを利用したクイックスタートガイド
    Agenda

    View full-size slide

  3. 自己紹介と学生アンバサダー活動計画の共有

    View full-size slide

  4. 自己紹介と学生アンバサダー活動の計画の共有
    Introducing Myself and Sharing the Plan for Student Ambassador Activities
    RAPIDSとKAMONOHASHIの学習
    2023.4
    cuDFやCUDAの学習,Plotlyによる
    データ可視化(ミニタスク)
    2023.5
    RAPIDSを実際の分析タスクへ
    適用
    2023.7
    RAPIDSの学習(cuML,cuGraph…)
    2023.6
    Dask+RAPIDSの学習,ワー
    クショップ準備
    2023.8
    ワークショップ準備,開催
    2024.9
    • 2023 滋賀大学データサイエンス学部を卒業
    • 強化学習とベイズ統計学を専攻
    • 2022.6〜 IT企業(Fintech)でデータサイエンティストとしてインターン中
    • 主にA/Bテストや,因果推論を用いた効果検証を担当
    • ゴール:学内ワークショップを1年で2回開催

    View full-size slide

  5. はじめに
    Introduction
    • RAPIDSは、データサイエンスを加速するために開発された、オープンソースのライブラリです。
    • このスライドでは、NVIDIAが提供するGPU Accelerated Data ScienceライブラリであるRAPIDSについて紹介します。
    • さらに、RAPIDSのプラットフォームとエコシステムを紹介します。
    • 後半には,発表後個々人で試してもらうための簡単なクイックスタートガイドを準備しています。

    View full-size slide

  6. RAPIDSの紹介 | GPU Accelerated Data Science

    View full-size slide

  7. RAPIDSの概要
    RAPIDS Outline
    • RAPIDSは、GPUを活用したデータサイエンス用のオープンソースプラットフォームです。
    • NVIDIAのGPUアクセラレーションテクノロジーであるCUDAをPythonから使えるようにすることで,高速なデータ処理を実現
    します。
    • データの前処理、機械学習、可視化、およびグラフ分析など、さまざまなタスクに対応するツールが含まれています。

    View full-size slide

  8. 従来のモデル
    Traditional Model
    GPU
    GPU
    Data
    GPU
    Data
    CPU
    APP A
    APP B
    APP A
    APP B

    View full-size slide

  9. 従来のモデル
    Traditional Model
    GPU
    GPU
    Data
    GPU
    Data
    CPU
    APP A
    APP B
    APP A
    APP B
    もし,ほとんどの処理をGPUだけで完了することができたら?

    View full-size slide

  10. RAPIDSのモデル
    RAPIDS Model
    GPU w/RAPIDS
    GPU
    Data
    GPU
    Data
    CPU
    APP A
    APP B

    View full-size slide

  11. 全工程で超高速なパフォーマンスを発揮
    Reducing Data Science Processes From Hours To Seconds
    RAPIDSはデータサイエンスの全工程で驚くべき高速化を
    もたらします。商用クラウド環境で行われたベンチマー
    クにより、一般的な機械学習モデルの学習パイプライン
    でも、最高のパフォーマンスが得られることが分かりま
    す。
    200GBのCSVデータセットを使って、データの読み込み・
    整理、特徴量作成、そして分類器の学習を行う際、
    RAPIDSを用いたパイプラインは、たったの2分ちょっとで
    これらの作業を終えました。同じようなCPU構成を使っ
    た場合、同じ作業に2時間半かかります。
    TCO
    $23.03
    $24.23
    $25.79
    $42.32
    $2.04
    16
    A100s Provide More Power
    than 100 CPU Nodes*
    70x
    Faster Performance than
    Similar CPU Configuration
    20x
    More Cost-Effective than
    Similar CPU Configuration
    *CPU approximate to n1-highmem-8 (8 vCPUs, 52GB memory)
    on Google Cloud Platform.

    View full-size slide

  12. ビジネスでの使用に適したデータサイエンスソリューション
    GPU-Acceleration for Data Science Work, Delivering Enterprise-grade Data Science Solutions
    • RAPIDSは,データ前処理からレポー
    ティングまで一気通貫でGPUで実行
    できる環境を提供することができま
    す。
    • CUDAを利用し,Apache SparkやDask
    ライクなインターフェースを通じて
    タスクを効率化。
    • さらにSparkやDaskを組み合わせるこ
    とによって,ビッグデータ処理にお
    いて高いスケーラビリティとパフォ
    ーマンスを実現します。
    • Links:
    • https://rapids.ai
    • https://developer.nvidia.com/rapids
    RAPIDS puts the power of GPUs in the hands of all Data Scientists
    Workflow & Interfaces
    Python Data Science and Machine Learning Ecosystem
    cuIO, cuDF
    Data Preparation Visualization
    Model Training
    cuML cuGraph cuXFILTER
    Spark or Dask
    GPU Memory
    Dask
    Pandas NetworkX pyViz
    Scikit-learn
    Pre-processing Machine learning Graph Analytics Math operations Visualization
    cuPy, cuNumeric
    Numpy
    RAPIDS

    View full-size slide

  13. CPU/GPUツールセットの対応関係
    Data scienece toolsets
    CPU GPU/RAPIDS
    データエンジニアリング Pandas cuDF
    機械学習・統計分析 Scikit-learn cuML
    ネットワーク NetworkX cuGraph
    可視化 Bokeh/Datashader cuXfilter

    View full-size slide

  14. 企業での活用例
    Enterprise use cases
    • RAPIDSはさまざまな企業で利用されています。
    • Walmart + RAPIDS ML
    • 需要予測にRAPIDS MLを利用し,従来の手法と比較して精度が1.7%上昇
    • Bumble + RAPIDS ML
    • Topic Modeling Libraryのオープンソースを公開
    • AT&T + RAPIDS ETL
    • AI/MLパイプラインを効率化
    • Amazon + RAPIDS GNN
    • GNNの高速化とスケーリング

    View full-size slide

  15. KAMONOHASHIを利用したクイックスタートガイド

    View full-size slide

  16. KAMONOHASHIでノートブックを作成
    RAPIDS on KAMONOHASHI
    • 先ほど紹介されたKAMONOHASHIを使って,実際にRAPIDSを使ってみましょう。
    1. KAMONOHASHIにログインしたのち,「ノートブック管理」をクリック。
    2. 検索窓で「NVIDIASAP-rapids-demo」で検索し,該当箇所を開く。
    3. 「ノートブック履歴」が開かれるので,「コピー実行」を選択。
    4. 数分待った後,再度「ノートブック履歴」を開き直し「ノートブックを開く」をクリック。
    5. 終了後,「ノートブック履歴」で「ジョブ停止」をクリック。
    • うまくいかない場合は,ジョブ停止してからゴミ箱アイコンをクリックする。

    View full-size slide

  17. ノートブックを動かしてRAPIDSを試してみよう
    RAPIDS on KAMONOHASHI

    View full-size slide

  18. ノートブックを動かしてRAPIDSを試してみよう
    RAPIDS on KAMONOHASHI
    • 試したあとは「ジョブ停止」を忘れずに!

    View full-size slide

  19. Links
    RAPIDS
    • https://courses.nvidia.com/courses/course-v1:DLI+S-DS-01+V1/
    • https://rapids.ai/
    Enterprise use cases
    • https://medium.com/bumble-tech/multilingual-gpu-powered-topic-modelling-at-scale-dc8bd08609ef
    • https://www.datanami.com/2019/03/22/how-walmart-uses-gpus-for-better-demand-forecasting/
    • https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41235/
    • https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41386/

    View full-size slide