Slide 1

Slide 1 text

スタートアップにおける ⾃社GPUクラスタ構築の舞台裏 Turing TechTalk! #6 2024.10.18 19:00-19:45

Slide 2

Slide 2 text

Twitterハッシュタグ: #TuringTechTalk Turing TechTalk! #6 19:00 オープニング‧全体案内 19:05 ⾃社GPUクラスタの紹介 19:15 ディスカッション&質疑応答 19:45 終了 TechTalkとは? スケジュール メンバー ⼭⼝ 祐  CTO / Director of AI  ⾃動運転‧⽣成AI開発を統括 渡辺 晃平  ⽣成AIチーム  シニアインフラエンジニア   AIモデル計算資源管理を担当 質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当する エンジニアが直接解説するオンラインイベント。 今回はTuringで構築した「⾃社GPUクラスタ」に ついて深掘りします。 感想はハッシュタグ #TuringTechTalk まで

Slide 3

Slide 3 text

Twitterハッシュタグ: #TuringTechTalk チューリング株式会社 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発 ⽣成AIによる実現を⽬指す 代表取締役: ⼭本⼀成 設⽴: 2021年8⽉ 3

Slide 4

Slide 4 text

Twitterハッシュタグ: #TuringTechTalk ⾃社専⽤GPUクラスタ「Gaggle-Cluster」 4 https://www.itmedia.co.jp/news/articles/2311/22/news147.html 2024年9⽉より「Gaggle-Cluster-1」として稼働開始 NVIDIA DGX H100 x 12ノード (96 GPUs) + ⾼速ノード間ネットワーク All Flash 超⾼速分散ストレージ 近⽇中に公開

Slide 5

Slide 5 text

⾃社GPUクラスタ 「Gaggle-Cluster」

Slide 6

Slide 6 text

Twitterハッシュタグ: #TuringTechTalk Gaggle-Clusterの特徴 6 ⾃動運転AI開発を⽬的にした専⽤計算クラスタ ● フルスペックのインターコネクトネットワーク ○ DGX H100を12ノード間を接続、ノードあたり3.2 Tbpsの帯域。 ○ 全ノードのGPU同⼠が400Gbpsで通信できる帯域。 ● ⾼スループットストレージ ○ ノードあたり10 GiB/s以上、ストレージ全体で100 GiB/s超の速度。 ● HPC向けジョブスケジューラ管理 ○ ABCIやTSUBAMEなどの⼤規模計算クラスタ環境に順した環境 ○ QoSやリソース利⽤して効率を最適化。 引⽤元: Eos: The Supercomputer Powering NVIDIA AI's Breakthroughs

Slide 7

Slide 7 text

Twitterハッシュタグ: #TuringTechTalk 324GB/s(2.6Tbps) 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 400GB/s(3.2Tbps) H100ノード x 12 管理ノード ストレージ装置 (実効 1PiB)     Ethernet ネットワーク(100G 多ポートスイッチ)  クラスタ管理通信+Lustre(RoCEv2)ストレージ通信 インターネット CPUノード 6000 Ada ノード Loginノード インターコネクト(Infiniband) Full-Bisection GPU Direct RDMA *1 ノード辺り帯域(Storageとデータ通信合算) 75GB/s(600Gbps) *1 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 CPU: 112 Core(2socket) MEM:2TB GP:H100 80GB SXM4 x 8 OS:DGXOS(Ubuntu 22.04系) CPU: 32 Core(2socket) MEM:256GB GPU:A6000(Ada) 48GB x 4 OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256GB OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256 GB OS:Ubuntu 22.04 CPU: 32 Core(2soket) MEM:256GB OS:Ubuntu 22.04 ランダムアクセス性能  104-130GB/s シーケンシャルアクセス性能  120-150GB/s 検討中 外接NWスイッチ DATA repo/source … インターネット AWS DirectConnect セキュリティ装置 構成概略図 7

Slide 8

Slide 8 text

Twitterハッシュタグ: #TuringTechTalk ユーザーの利⽤イメージ ジョブスケジューラーでGPU数を指定すると希望するGPU 数でアサインされた環境が利⽤できる ログインノード SSH(CLI) VSCode(IDE) JupyterLab(WebGUI ) H100 6000Ada CPU ● ユーザーがSSHやVScodeでログインノードにアクセス ● スケジューラ経由で必要計算資源にアクセスする ○ 計算資源には直接アクセスしない 準備中 srun/sbatch/salloc でリソースを予約 8

Slide 9

Slide 9 text

Twitterハッシュタグ: #TuringTechTalk アンケートのご案内 概要欄記載のアンケートへの ご協⼒をお願いします (所要時間:1~2分) 9 QRコードからも回答可能です 👇

Slide 10

Slide 10 text

Twitterハッシュタグ: #TuringTechTalk 完全⾃動運転の技術を ⼀緒に作る仲間を募集しています ‧MLエンジニア ‧リサーチャー ‧ソフトウェアエンジニア ‧インフラエンジニア        and more… 気になった⽅はYoutube概要欄の 求⼈のURLからご応募ください! 採⽤情報のご案内 10

Slide 11

Slide 11 text

Twitterハッシュタグ: #TuringTechTalk \今⽉末までの応募者にキャンペーンを実施中∕ 採⽤情報のご案内 11

Slide 12

Slide 12 text

Twitterハッシュタグ: #TuringTechTalk イベント告知 オフラインとオンラインでイベントを開催中です ➡アンケート回答後の画⾯からお申し込みをお待ちしております! 12 11/15(金)19:00〜 10/29(火)18:30~ 11/14(木)18:30~ TechTalk #7 チューリング寿司ナイト (旧オープンオフィス) 10/31(木)18:00〜 新卒向け会社説明会

Slide 13

Slide 13 text

No content