Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介

 NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介

Takato Ueno

May 02, 2023
Tweet

More Decks by Takato Ueno

Other Decks in Research

Transcript

  1. NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介
    上野 孝斗 / Takato Ueno, 滋賀大学大学院DS研究科博士前期課程1年 | 2023/4/28

    View Slide

  2. • 自己紹介と学生アンバサダー活動計画の共有
    • RAPIDSの紹介 | GPU Accelerated Data Science
    • KAMONOHASHIを利用したクイックスタートガイド
    Agenda

    View Slide

  3. 自己紹介と学生アンバサダー活動計画の共有

    View Slide

  4. 自己紹介と学生アンバサダー活動の計画の共有
    Introducing Myself and Sharing the Plan for Student Ambassador Activities
    RAPIDSとKAMONOHASHIの学習
    2023.4
    cuDFやCUDAの学習,Plotlyによる
    データ可視化(ミニタスク)
    2023.5
    RAPIDSを実際の分析タスクへ
    適用
    2023.7
    RAPIDSの学習(cuML,cuGraph…)
    2023.6
    Dask+RAPIDSの学習,ワー
    クショップ準備
    2023.8
    ワークショップ準備,開催
    2024.9
    • 2023 滋賀大学データサイエンス学部を卒業
    • 強化学習とベイズ統計学を専攻
    • 2022.6〜 IT企業(Fintech)でデータサイエンティストとしてインターン中
    • 主にA/Bテストや,因果推論を用いた効果検証を担当
    • ゴール:学内ワークショップを1年で2回開催

    View Slide

  5. はじめに
    Introduction
    • RAPIDSは、データサイエンスを加速するために開発された、オープンソースのライブラリです。
    • このスライドでは、NVIDIAが提供するGPU Accelerated Data ScienceライブラリであるRAPIDSについて紹介します。
    • さらに、RAPIDSのプラットフォームとエコシステムを紹介します。
    • 後半には,発表後個々人で試してもらうための簡単なクイックスタートガイドを準備しています。

    View Slide

  6. RAPIDSの紹介 | GPU Accelerated Data Science

    View Slide

  7. RAPIDSの概要
    RAPIDS Outline
    • RAPIDSは、GPUを活用したデータサイエンス用のオープンソースプラットフォームです。
    • NVIDIAのGPUアクセラレーションテクノロジーであるCUDAをPythonから使えるようにすることで,高速なデータ処理を実現
    します。
    • データの前処理、機械学習、可視化、およびグラフ分析など、さまざまなタスクに対応するツールが含まれています。

    View Slide

  8. 従来のモデル
    Traditional Model
    GPU
    GPU
    Data
    GPU
    Data
    CPU
    APP A
    APP B
    APP A
    APP B

    View Slide

  9. 従来のモデル
    Traditional Model
    GPU
    GPU
    Data
    GPU
    Data
    CPU
    APP A
    APP B
    APP A
    APP B
    もし,ほとんどの処理をGPUだけで完了することができたら?

    View Slide

  10. RAPIDSのモデル
    RAPIDS Model
    GPU w/RAPIDS
    GPU
    Data
    GPU
    Data
    CPU
    APP A
    APP B

    View Slide

  11. 全工程で超高速なパフォーマンスを発揮
    Reducing Data Science Processes From Hours To Seconds
    RAPIDSはデータサイエンスの全工程で驚くべき高速化を
    もたらします。商用クラウド環境で行われたベンチマー
    クにより、一般的な機械学習モデルの学習パイプライン
    でも、最高のパフォーマンスが得られることが分かりま
    す。
    200GBのCSVデータセットを使って、データの読み込み・
    整理、特徴量作成、そして分類器の学習を行う際、
    RAPIDSを用いたパイプラインは、たったの2分ちょっとで
    これらの作業を終えました。同じようなCPU構成を使っ
    た場合、同じ作業に2時間半かかります。
    TCO
    $23.03
    $24.23
    $25.79
    $42.32
    $2.04
    16
    A100s Provide More Power
    than 100 CPU Nodes*
    70x
    Faster Performance than
    Similar CPU Configuration
    20x
    More Cost-Effective than
    Similar CPU Configuration
    *CPU approximate to n1-highmem-8 (8 vCPUs, 52GB memory)
    on Google Cloud Platform.

    View Slide

  12. ビジネスでの使用に適したデータサイエンスソリューション
    GPU-Acceleration for Data Science Work, Delivering Enterprise-grade Data Science Solutions
    • RAPIDSは,データ前処理からレポー
    ティングまで一気通貫でGPUで実行
    できる環境を提供することができま
    す。
    • CUDAを利用し,Apache SparkやDask
    ライクなインターフェースを通じて
    タスクを効率化。
    • さらにSparkやDaskを組み合わせるこ
    とによって,ビッグデータ処理にお
    いて高いスケーラビリティとパフォ
    ーマンスを実現します。
    • Links:
    • https://rapids.ai
    • https://developer.nvidia.com/rapids
    RAPIDS puts the power of GPUs in the hands of all Data Scientists
    Workflow & Interfaces
    Python Data Science and Machine Learning Ecosystem
    cuIO, cuDF
    Data Preparation Visualization
    Model Training
    cuML cuGraph cuXFILTER
    Spark or Dask
    GPU Memory
    Dask
    Pandas NetworkX pyViz
    Scikit-learn
    Pre-processing Machine learning Graph Analytics Math operations Visualization
    cuPy, cuNumeric
    Numpy
    RAPIDS

    View Slide

  13. CPU/GPUツールセットの対応関係
    Data scienece toolsets
    CPU GPU/RAPIDS
    データエンジニアリング Pandas cuDF
    機械学習・統計分析 Scikit-learn cuML
    ネットワーク NetworkX cuGraph
    可視化 Bokeh/Datashader cuXfilter

    View Slide

  14. 企業での活用例
    Enterprise use cases
    • RAPIDSはさまざまな企業で利用されています。
    • Walmart + RAPIDS ML
    • 需要予測にRAPIDS MLを利用し,従来の手法と比較して精度が1.7%上昇
    • Bumble + RAPIDS ML
    • Topic Modeling Libraryのオープンソースを公開
    • AT&T + RAPIDS ETL
    • AI/MLパイプラインを効率化
    • Amazon + RAPIDS GNN
    • GNNの高速化とスケーリング

    View Slide

  15. KAMONOHASHIを利用したクイックスタートガイド

    View Slide

  16. KAMONOHASHIでノートブックを作成
    RAPIDS on KAMONOHASHI
    • 先ほど紹介されたKAMONOHASHIを使って,実際にRAPIDSを使ってみましょう。
    1. KAMONOHASHIにログインしたのち,「ノートブック管理」をクリック。
    2. 検索窓で「NVIDIASAP-rapids-demo」で検索し,該当箇所を開く。
    3. 「ノートブック履歴」が開かれるので,「コピー実行」を選択。
    4. 数分待った後,再度「ノートブック履歴」を開き直し「ノートブックを開く」をクリック。
    5. 終了後,「ノートブック履歴」で「ジョブ停止」をクリック。
    • うまくいかない場合は,ジョブ停止してからゴミ箱アイコンをクリックする。

    View Slide

  17. ノートブックを動かしてRAPIDSを試してみよう
    RAPIDS on KAMONOHASHI

    View Slide

  18. ノートブックを動かしてRAPIDSを試してみよう
    RAPIDS on KAMONOHASHI
    • 試したあとは「ジョブ停止」を忘れずに!

    View Slide

  19. Links
    RAPIDS
    • https://courses.nvidia.com/courses/course-v1:DLI+S-DS-01+V1/
    • https://rapids.ai/
    Enterprise use cases
    • https://medium.com/bumble-tech/multilingual-gpu-powered-topic-modelling-at-scale-dc8bd08609ef
    • https://www.datanami.com/2019/03/22/how-walmart-uses-gpus-for-better-demand-forecasting/
    • https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41235/
    • https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41386/

    View Slide

  20. View Slide