Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NGC × Singularity での機械学習環境/MachineLearning envi...
Search
ryo nakamaru
May 24, 2018
Science
880
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
NGC × Singularity での機械学習環境/MachineLearning environment with NGC and Singularity
ryo nakamaru
May 24, 2018
More Decks by ryo nakamaru
See All by ryo nakamaru
AWSで楽をするサービスメッシュ入門/appmesh-trial
pottava
1
1.7k
reinforce-2019-recap-lt
pottava
2
4.2k
ScaleShift-jp-2019-summer
pottava
1
230
Firecracker とは何か/what is Firecracker
pottava
12
5.7k
ハイブリッド並列 on Kubernetes/hybrid-parallel-program-on-kubernetes
pottava
1
460
AWS Fargate + Code 兄弟で始める継続的デリバリー / Continuous Delivery with AWS Fargate and Code brothers
pottava
12
3.3k
Singularity と NVIDIA GPU Cloud で作る ハイブリッド機械学習環境の構築 / Building a hybrid environment for Machine Learning with Singularity and NGC
pottava
3
1.5k
明日から始めるちょい足し λ / get-started-with-aws-lambda
pottava
4
2.5k
NGC と Singularity によるハイブリッド機械学習環境 / A hybrid environment for Machine Learning with NGC and Singularity
pottava
0
540
Other Decks in Science
See All in Science
「遂行理論の未来」(松島斉教授最終講義記念セッションの発表資料)
shunyanoda
0
920
機械学習 - SVM
trycycle
PRO
2
1.1k
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
PRO
0
1.5k
機械学習 - 決定木からはじめる機械学習
trycycle
PRO
0
1.5k
先端因果推論特別研究チームの研究構想と 人間とAIが協働する自律因果探索の展望
sshimizu2006
3
940
Van Dare naar Durf
voginip
0
240
YouTubeにおける撤回論文の参照実態 / metascience-meetup2026
corgies
3
290
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
190
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
PRO
0
270
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
1
1.5k
フィードフォワードニューラルネットワークを用いた記号入出力制御系に対する制御器設計 / Controller Design for Augmented Systems with Symbolic Inputs and Outputs Using Feedforward Neural Network
konakalab
0
140
次代のデータサイエンティストへ~スキルチェックリスト、タスクリスト更新~
datascientistsociety
PRO
3
44k
Featured
See All Featured
Color Theory Basics | Prateek | Gurzu
gurzu
0
370
Abbi's Birthday
coloredviolet
2
8.1k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
600
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
440
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
490
The Cost Of JavaScript in 2023
addyosmani
55
10k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
260
Transcript
クラウドを活用した NGC✖Singularity での機械学習環境 GPU Deep Learning Community #8 May 24,
2018 Ryo NAKAMARU, SUPINF Inc., Rescale, Inc.
中丸 良 @pottava • CTO at SUPINF Inc. / Solutions
Architect at Rescale, Inc. • AWS Certified SA, DevOps Engineer - Pro • Google Certified Professional - Cloud Architect Profile !2
SUPINF Inc. !3 • クラウド / コンテナ 中心の コンサルティング /
環境構築 / 受託開発 / 運用 • 直近ではオンプレ × DGX-1 × Kubernetes な機械学習環境の納品など • スピンフ、と読みます
Rescale, Inc. !4 • クラウド HPC プラットフォームを SaaS で提供 •
スケーラブルなシミュレーションや機械学習をとても手軽に • Singularity でのジョブ実行もサポート
!5 Rescale 1. 入力ファイル選んで 2. Singularity 選んで 3. ハードウェア選んで 4.
Submit ボタン押すだけ
機械学習環境 !6
インフラ管理者のための 7 つのヒント !7 1. なぜ Docker か 2. なぜ
NVIDIA GPU Cloud(NGC)か 3. ジョブスケジューラとは何か 4. なぜ Kubernetes か 5. なぜ Singularity か 6. なぜ HPC のジョブスケジューラか 7. なぜクラウドとのハイブリッド環境か
Point of view !8 今日はインフラ管理者視点、かつ学習フェーズのお話です。 ✖ アルゴリズムの話はありません ✖ 推論フェーズの話もありません
1. なぜ Docker か !9
Docker のよさ !10 必要最低限 隔離された 実行環境がすぐ手に入る ・・・・・
Docker のよさ !11 必要最低限 隔離された 実行環境がすぐ手に入る ・・・・・ 気軽にかんたんに 共有できる、再現する ・・・・・
repository push pull
Docker のよさ !12 必要最低限 隔離された 実行環境がすぐ手に入る ・・・・・ 気軽にかんたんに 共有できる、再現する 利用事例
が豊富で 知見が得やすい ・・・・・ repository push pull
2. なぜ NVIDIA GPU Cloud(NGC)か !13
NGC とは? !14 ・NVIDIA 公式の Docker レジストリ ・Docker イメージは毎月更新される ・CUDA
やライブラリはもちろん同梱 ・NVIDIA GPU に最適化された設定 ・なんと無料
NGC のない世界 !15 Dockerfile 職人養成所? 肥大化する リポジトリ 管理者たる 重責!! GPU
最適化 CUDA、ライブラリ、etc ..
NGC のある世界 !16 メンテナンスフリー、利用料もフリー NVIDIA お墨付きの安心感
3. ジョブスケジューラとは何か !17
資源の占有 !18 お一人様機械学習
資源の共有 !19 お一人様機械学習 チームで資源を共有 使います!
全体資源の把握・ジョブの配置 !20 data center cloud お一人様機械学習 チームで資源を共有 会社で全資源を共有 使います! scheduler
ジョブを渡すと空いている 資源に自動配置・計算開始
スケジューラといえば 巷で話題のクーバネーティス !21
4. なぜ Kubernetes か !22
Kubernetes !23 Control plane(管理ノード) 計算ノード 社内 DC
社内 DC • Docker との相性抜群 Kubernetes クラスタ
Kubernetes !24 Control plane(管理ノード) 計算ノード Tesla V100
社内 DC TITAN V 社内 DC • Docker との相性抜群 • NVIDIA さんもサポートを宣言 • 複数 GPU アーキテクチャでも OK ( New )
Kubernetes !25 Control plane(管理ノード) ジョブを定義した YAML を Apply
計算ノード Tesla V100 社内 DC TITAN V 社内 DC • 例えば高性能な Tesla で計算したい! YAML に書いた定義を渡すと・・
Kubernetes !26 Control plane(管理ノード) ジョブを定義した YAML を Apply
計算ノード Tesla V100 社内 DC TITAN V 社内 DC • 空きがあり、条件に合うノードに配置 • nvidia-docker v1 / v2 すでに対応済 → コンテナへ適切に GPU 割り当て
Kubernetes !27 Control plane(管理ノード) 計算ノード Tesla
V100 社内 DC TITAN V 社内 DC Tesla P100 AWS … • 専用線で繋げばクラウドもクラスタに • Federated という方法もあったり
Kubernetes !28 Control plane(管理ノード) ジョブを定義した YAML を Apply
計算ノード Tesla V100 社内 DC TITAN V 社内 DC Tesla P100 AWS … • “クラウドで動かしたい” or / and • “Tesla P100 で動かしたい”
k8s で十分じゃない? !29 • そうですね!私自身、本番稼働を経験したのはここまで。 • 大切なのは、要件にあった技術が選べること ‣ この先の話も知っていると選択肢が広がる ‣
ツールの利用想定にない要件で使うのはお互い不幸 • HPC を支える技術の深さは貴重 ‣ DL フレームワークの追従, etc ..
そんな中、では !30
5. なぜ Singularity か !31
Better Docker !32 もっと計算を速くしたい勢 運用を改善したい勢 IB 使いたい ノード またぎたい もっと
MPI かんたんに root 渡すの 無理です 既存の スケジューラ 使いたい
Singularity • http://singularity.lbl.gov • Singularity = Docker のいいところ(特に再現性)+ HPC サポート
‣ 基本思想は同じ: Build, Ship, and Run any app, Anywhere ‣ 高性能ハードウェアそのまま、ジョブスケジューラもそのまま • DockerHub のように公式レジストリもあるよ ‣ https://singularity-hub.org !33
国内採用事例 !34 And more ..
でも Singularity、Kubernetes で動かないよね? じゃあ何を使えばいいの・・ !35
6. なぜ HPC のジョブスケジューラか !36
Web 界隈のジョブスケジューラ !37 Web (Docker) 界隈 ・Singularity 対応なし ・基本ホストリソースの 切り売り
scheduler GPU GPU GPU … GPU GPU GPU … 確保!
HPC 系ジョブスケジューラとの違い !38 Web (Docker) 界隈 ・Singularity 対応なし ・基本ホストリソースの 切り売り
scheduler GPU GPU GPU … GPU GPU GPU … 確保! scheduler GPU GPU GPU … GPU GPU GPU … 確保! HPC 業界 ・ノードをまたいで リソースを確保できる ・ノード間通信するための設定もしてくれる
深層学習フレームワークの直近の傾向 !39
7. なぜクラウドとのハイブリッド環境か !40
クラウド?オンプレ?いいとこ取り? !41 ・セキュリティポリシー データ転送制限 etc.. (仕方ないやつ・・) ・クラウドほんとに安い? 例 1)GeForce +
AWS 例 2)大企業の調達コスト ・データ転送速度 ・どちらが最新 GPU? ・鬼のチューニング
Rescale で検証中の例 !42 WebUI から ぽちっと
Rescale で検証中の例 !43 Jupyter notebook を入れ ローカルで試行錯誤
Rescale で検証中の例 !44 Jupyter notebook を入れ ローカルで試行錯誤 Singularity に変換して
Rescale で検証中の例 !45 Jupyter notebook を入れ ローカルで試行錯誤 Singularity に変換して クラウドで高速に並列計算
DEMO !46
NGC Registry API Library for Go !47 レジストリから 情報を抜きたい
ご静聴ありがとうございました 参考文献: • ディープ ラーニング コンテナー - NVIDIA GPU Cloud
(NGC) https://www.nvidia.com/ja-jp/gpu-cloud/deep-learning-containers/ • Containers for Science, Reproducibility and Mobility SINGULARITY P2 https://www.intel.com/content/dam/www/public/us/en/documents/presentation/hpc- containers-singularity-advanced.pdf • Singularityで分散深層学習(産総研佐藤さん) https://www.slideshare.net/htsst/singularity-85959573