Turing TechTalk! #6 - Speaker Deck

Slide 1

Slide 1 text

スタートアップにおける⾃社GPUクラスタ構築の舞台裏 Turing TechTalk! #6 2024.10.18 19:00-19:45

Slide 2

Slide 2 text

Twitterハッシュタグ： #TuringTechTalk Turing TechTalk! #6 19:00 オープニング‧全体案内 19:05 ⾃社GPUクラスタの紹介 19:15 ディスカッション＆質疑応答 19:45 終了 TechTalkとは？スケジュールメンバー⼭⼝祐 CTO / Director of AI ⾃動運転‧⽣成AI開発を統括渡辺晃平⽣成AIチームシニアインフラエンジニア AIモデル計算資源管理を担当質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当するエンジニアが直接解説するオンラインイベント。今回はTuringで構築した「⾃社GPUクラスタ」について深掘りします。感想はハッシュタグ #TuringTechTalk まで

Slide 3

Slide 3 text

Twitterハッシュタグ： #TuringTechTalk チューリング株式会社累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発⽣成AIによる実現を⽬指す代表取締役: ⼭本⼀成設⽴: 2021年8⽉ 3

Slide 4

Slide 4 text

Twitterハッシュタグ： #TuringTechTalk ⾃社専⽤GPUクラスタ「Gaggle-Cluster」 4 https://www.itmedia.co.jp/news/articles/2311/22/news147.html 2024年9⽉より「Gaggle-Cluster-1」として稼働開始 NVIDIA DGX H100 x 12ノード (96 GPUs) ＋⾼速ノード間ネットワーク All Flash 超⾼速分散ストレージ近⽇中に公開

Slide 5

Slide 5 text

⾃社GPUクラスタ「Gaggle-Cluster」

Slide 6

Slide 6 text

Twitterハッシュタグ： #TuringTechTalk Gaggle-Clusterの特徴 6 ⾃動運転AI開発を⽬的にした専⽤計算クラスタ ● フルスペックのインターコネクトネットワーク ○ DGX H100を12ノード間を接続、ノードあたり3.2 Tbpsの帯域。 ○ 全ノードのGPU同⼠が400Gbpsで通信できる帯域。 ● ⾼スループットストレージ ○ ノードあたり10 GiB/s以上、ストレージ全体で100 GiB/s超の速度。 ● HPC向けジョブスケジューラ管理 ○ ABCIやTSUBAMEなどの⼤規模計算クラスタ環境に順した環境 ○ QoSやリソース利⽤して効率を最適化。引⽤元: Eos: The Supercomputer Powering NVIDIA AI's Breakthroughs

Slide 7

Slide 7 text

Twitterハッシュタグ： #TuringTechTalk 324GB/s(2.6Tbps) 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 400GB/s(3.2Tbps) H100ノード x 12 管理ノードストレージ装置 (実効 1PiB) Ethernet ネットワーク(100G 多ポートスイッチ) クラスタ管理通信＋Lustre(RoCEv2)ストレージ通信インターネット CPUノード 6000 Ada ノード Loginノードインターコネクト(Inﬁniband) Full-Bisection GPU Direct RDMA *1 ノード辺り帯域(Storageとデータ通信合算) 75GB/s(600Gbps) *1 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 CPU: 112 Core(2socket) MEM:2TB GP:H100 80GB SXM4 x 8 OS:DGXOS(Ubuntu 22.04系) CPU: 32 Core(2socket) MEM:256GB GPU:A6000(Ada) 48GB x 4 OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256GB OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256 GB OS:Ubuntu 22.04 CPU: 32 Core(2soket) MEM:256GB OS:Ubuntu 22.04 ランダムアクセス性能 104-130GB/s シーケンシャルアクセス性能 120-150GB/s 検討中外接NWスイッチ DATA repo/source … インターネット AWS DirectConnect セキュリティ装置構成概略図 7

Slide 8

Slide 8 text

Twitterハッシュタグ： #TuringTechTalk ユーザーの利⽤イメージジョブスケジューラーでGPU数を指定すると希望するGPU 数でアサインされた環境が利⽤できるログインノード SSH(CLI) VSCode(IDE) JupyterLab(WebGUI ) H100 6000Ada CPU ● ユーザーがSSHやVScodeでログインノードにアクセス ● スケジューラ経由で必要計算資源にアクセスする ○ 計算資源には直接アクセスしない準備中 srun/sbatch/salloc でリソースを予約 8

Slide 9

Slide 9 text

Twitterハッシュタグ： #TuringTechTalk アンケートのご案内概要欄記載のアンケートへのご協⼒をお願いします（所要時間：1~2分） 9 QRコードからも回答可能です 👇

Slide 10

Slide 10 text

Twitterハッシュタグ： #TuringTechTalk 完全⾃動運転の技術を⼀緒に作る仲間を募集しています ‧MLエンジニア ‧リサーチャー ‧ソフトウェアエンジニア ‧インフラエンジニア and more… 気になった⽅はYoutube概要欄の求⼈のURLからご応募ください！採⽤情報のご案内 10

Slide 11

Slide 11 text

Twitterハッシュタグ： #TuringTechTalk ＼今⽉末までの応募者にキャンペーンを実施中∕ 採⽤情報のご案内 11

Slide 12

Slide 12 text

Twitterハッシュタグ： #TuringTechTalk イベント告知オフラインとオンラインでイベントを開催中です ➡アンケート回答後の画⾯からお申し込みをお待ちしております！ 12 11/15（金）19:00〜 10/29（火）18:30～ 11/14（木）18:30～ TechTalk #7 チューリング寿司ナイト（旧オープンオフィス） 10/31（木）18:00〜新卒向け会社説明会

Slide 13

Slide 13 text

No content