Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介

 NVIDIA学生アンバサダーキックオフ&RAPIDSの紹介

Takato Ueno

May 02, 2023
Tweet

More Decks by Takato Ueno

Other Decks in Research

Transcript

  1. 自己紹介と学生アンバサダー活動の計画の共有 Introducing Myself and Sharing the Plan for Student Ambassador

    Activities RAPIDSとKAMONOHASHIの学習 2023.4 cuDFやCUDAの学習,Plotlyによる データ可視化(ミニタスク) 2023.5 RAPIDSを実際の分析タスクへ 適用 2023.7 RAPIDSの学習(cuML,cuGraph…) 2023.6 Dask+RAPIDSの学習,ワー クショップ準備 2023.8 ワークショップ準備,開催 2024.9 • 2023 滋賀大学データサイエンス学部を卒業 • 強化学習とベイズ統計学を専攻 • 2022.6〜 IT企業(Fintech)でデータサイエンティストとしてインターン中 • 主にA/Bテストや,因果推論を用いた効果検証を担当 • ゴール:学内ワークショップを1年で2回開催
  2. はじめに Introduction • RAPIDSは、データサイエンスを加速するために開発された、オープンソースのライブラリです。 • このスライドでは、NVIDIAが提供するGPU Accelerated Data ScienceライブラリであるRAPIDSについて紹介します。 •

    さらに、RAPIDSのプラットフォームとエコシステムを紹介します。 • 後半には,発表後個々人で試してもらうための簡単なクイックスタートガイドを準備しています。
  3. 従来のモデル Traditional Model GPU GPU Data GPU Data CPU APP

    A APP B APP A APP B もし,ほとんどの処理をGPUだけで完了することができたら?
  4. 全工程で超高速なパフォーマンスを発揮 Reducing Data Science Processes From Hours To Seconds RAPIDSはデータサイエンスの全工程で驚くべき高速化を

    もたらします。商用クラウド環境で行われたベンチマー クにより、一般的な機械学習モデルの学習パイプライン でも、最高のパフォーマンスが得られることが分かりま す。 200GBのCSVデータセットを使って、データの読み込み・ 整理、特徴量作成、そして分類器の学習を行う際、 RAPIDSを用いたパイプラインは、たったの2分ちょっとで これらの作業を終えました。同じようなCPU構成を使っ た場合、同じ作業に2時間半かかります。 TCO $23.03 $24.23 $25.79 $42.32 $2.04 16 A100s Provide More Power than 100 CPU Nodes* 70x Faster Performance than Similar CPU Configuration 20x More Cost-Effective than Similar CPU Configuration *CPU approximate to n1-highmem-8 (8 vCPUs, 52GB memory) on Google Cloud Platform.
  5. ビジネスでの使用に適したデータサイエンスソリューション GPU-Acceleration for Data Science Work, Delivering Enterprise-grade Data Science

    Solutions • RAPIDSは,データ前処理からレポー ティングまで一気通貫でGPUで実行 できる環境を提供することができま す。 • CUDAを利用し,Apache SparkやDask ライクなインターフェースを通じて タスクを効率化。 • さらにSparkやDaskを組み合わせるこ とによって,ビッグデータ処理にお いて高いスケーラビリティとパフォ ーマンスを実現します。 • Links: • https://rapids.ai • https://developer.nvidia.com/rapids RAPIDS puts the power of GPUs in the hands of all Data Scientists Workflow & Interfaces Python Data Science and Machine Learning Ecosystem cuIO, cuDF Data Preparation Visualization Model Training cuML cuGraph cuXFILTER Spark or Dask GPU Memory Dask Pandas NetworkX pyViz Scikit-learn Pre-processing Machine learning Graph Analytics Math operations Visualization cuPy, cuNumeric Numpy RAPIDS
  6. 企業での活用例 Enterprise use cases • RAPIDSはさまざまな企業で利用されています。 • Walmart + RAPIDS

    ML • 需要予測にRAPIDS MLを利用し,従来の手法と比較して精度が1.7%上昇 • Bumble + RAPIDS ML • Topic Modeling Libraryのオープンソースを公開 • AT&T + RAPIDS ETL • AI/MLパイプラインを効率化 • Amazon + RAPIDS GNN • GNNの高速化とスケーリング
  7. KAMONOHASHIでノートブックを作成 RAPIDS on KAMONOHASHI • 先ほど紹介されたKAMONOHASHIを使って,実際にRAPIDSを使ってみましょう。 1. KAMONOHASHIにログインしたのち,「ノートブック管理」をクリック。 2. 検索窓で「NVIDIASAP-rapids-demo」で検索し,該当箇所を開く。

    3. 「ノートブック履歴」が開かれるので,「コピー実行」を選択。 4. 数分待った後,再度「ノートブック履歴」を開き直し「ノートブックを開く」をクリック。 5. 終了後,「ノートブック履歴」で「ジョブ停止」をクリック。 • うまくいかない場合は,ジョブ停止してからゴミ箱アイコンをクリックする。
  8. Links RAPIDS • https://courses.nvidia.com/courses/course-v1:DLI+S-DS-01+V1/ • https://rapids.ai/ Enterprise use cases •

    https://medium.com/bumble-tech/multilingual-gpu-powered-topic-modelling-at-scale-dc8bd08609ef • https://www.datanami.com/2019/03/22/how-walmart-uses-gpus-for-better-demand-forecasting/ • https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41235/ • https://www.nvidia.com/en-us/on-demand/session/gtcfall22-a41386/