Cycloud ML Platform: Hardware and Infrastructure Update 2023

Slide 1

Slide 1 text

Cycloud ML Platform: Hardware and Infrastructure Update 2023 Accelerated Computing SIG Daisuke Takahashi

Slide 20

Slide 20 text

当⽇&後⽇頂いた質問 (抜粋) 1. 納期リスク ○ 全体的にリードタイムが⻑期化している点で、⼊⼿性が課題 ○ 発注の可能性や、導⼊のインパクトなどをこまめにシェアすることでパートナーの協⼒を得やすいと考えている 2. GPUサーバーの運⽤ ○ 重量が100kgを超えるため、電動リフターを利⽤している。決して、⼿で持ち上げるとか考えてはいけない ○ リアドア空調⽅式によって部屋の温度を24度に保っている ■ リアドアを開放した場合、エアが逆流する点が課題。ミキシングアイルキャッピングの弊害と推測される ■ XE8545は温度制限が厳しく、T ℃ =28がHW上限‧T ℃ =27でアラート対応 (30℃までは耐えてほしい…) 3. 今後の増設 ○ A100/H100をメインで考えているが、具体的なロードマップは決まっていない (L4も導⼊検討中) ■ 社内の需要を⾒ながら、数か⽉単位で都度判断していく ■ 100~200基では「A100/H100が不⾜→T4/A2で妥協」or「T4/A2で⼗分」はヒアリングが必須 ○ H100の納期が⻑く、増設判断の在り⽅は再考中 ■ 納期待っている間にHopper Next (TDP 1000Wぐらい？) が…。Interconnectも800Gに…? 4. 将来の話 ○ Hopper NextやHopper Next Nextにリアドアの性能 (35kW) が追いつかない疑惑 ■ 重量級のHGXサーバーと液浸冷却のオペレーションはマッチしないと考えている ○ これから検証するのは⽔冷 (DLC)だが、既に課題も⾒えている ■ 「メモリやディスクまで冷やせるベンダー vs 冷やせないベンダー」(空調/In-row/リアドアなどを併⽤) ■ つまり、「設計‧製造コスト vs 空調設備コスト」or「究極の⽔冷 vs ⽔冷へのオフロード」？ ○ 単相200V30Aだと、1ラック12~18回路になってしまい、運⽤がつらい ■ 三相電源の導⼊も検討していくが、UPS周りなど、⼤掛かりな設備改修はハードルが⾼い

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text