Slide 1

Slide 1 text

今、GPUが熱い それを冷やす技術 ⼤村 保貴 クラスメソッド株式会社 クラウド事業本部 コンサルティング部

Slide 2

Slide 2 text

⾃⼰紹介 2 大村 保貴 (Yasutaka Ohmura) クラスメソッド株式会社 クラウド事業本部 コンサルティング部 ソリューションアーキテクト 出身 ● 網走市 役割 ● お客様のクラウド活用推進のための伴走支援 ● 専門はHPC(スパコン)、ライフサイエンス少々 経歴 ● オンプレITインフラの設計構築→ 自社IoTサービスの構築運用 → クラスメソッド 受賞 ● Japan AWS Top Engineers (Services) 2021, 2023 - 2025 ● Japan AWS All Certifications Engineers 2021 - 2025

Slide 3

Slide 3 text

今、GPUが熱い

Slide 4

Slide 4 text

4 ⽣成 AI への⺠間投資は爆発的に増加しています。 引⽤: The 2025 AI Index Report ⽣成 AI ブーム 2024年の⽣成 AI への⺠間投資額は 339 億ドル 2022年⽐で 8.5 倍以上に増加 ChatGPT 以降、企業の AI 投資が加速

Slide 5

Slide 5 text

NVIDIA の株価も熱い 5 GPU需要を背景に、NVIDIA社の市場価値も上昇しています 引⽤: Google Finance GPU 需要の爆発で株価も⾼騰 時価総額は 4 兆ドルを突破 AI の進化をハードウェアが⽀えている

Slide 6

Slide 6 text

GPU の温度が熱い! 6 ⾼性能化する GPU の発熱を冷やすための技術 AWS 最新の液体冷却システムを中⼼に紹介します 空冷の限界を迎える...

Slide 7

Slide 7 text

最近の GPU サーバー事情

Slide 8

Slide 8 text

NVIDIA GB200 NVL72 8 最新のNVIDIA GB200 NVL72は、1ラック全体で1つの巨⼤なGPUとして動作します 引⽤: AI Factory for the New Industrial Revolution | NVIDIA GTC24

Slide 9

Slide 9 text

NVIDIA GB200 NVL72 9 2 ラックに分けて 1 つの GPU を構成パターンも提供されています 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 10

Slide 10 text

NVIDIA GB200 NVL72 10 消費電⼒が⾼すぎて⼀般的なデータセンターに 1 ラック構成で置けない 参考: NVIDIA GB200 スーパーチップと液冷サーバーおよびキャビネットの紹介 GPU 1チップ 約 1.2kW(1200W) 標準的な CPU サーバー消費電力 約 12kW/ラック 多くのデータセンターの標準的なラック 最大 60kW/ラック まで対応 GB200 NVL72 の消費電力 約 120kW/ラック 一部データセンターの対応しているラック 135kW 〜

Slide 11

Slide 11 text

ドライヤー100台 11 1ラックの消費電⼒は、家庭⽤ドライヤー100台を同時に使うのと同じくらい ● ドライヤーの消費電⼒:約1.2kW (1200W) ● GPU 1チップ ≒ ドライヤー 1台 ● GB200 NVL72 1ラック ≒ ドライヤー 100台 × 100

Slide 12

Slide 12 text

空冷の限界 12 仮に空気でGPUを冷やすなら、、、 参考: NVIDIA Blackwell プラットフォームが水の使用効率を 300 倍以上改善 データセンターの温度を氷点下まで下げるか、 強⾵レベルの⾵速で熱を逃がし続ける 従来の「空気」で冷やすのは⾮現実的になりました

Slide 13

Slide 13 text

液体冷却

Slide 14

Slide 14 text

なぜ「液体」? 14 空気の約1000倍の密度を持つ液体は、熱を奪う効率が圧倒的に良い 密度 運べる熱量 空気 低い 小さい 液体 高い 大きい 参考: NVIDIA Blackwell プラットフォームが水の使用効率を 300 倍以上改善

Slide 15

Slide 15 text

液体冷却の⽅式 15 L2L(Liquid to Liquid) DLC(Direct Liquid Cooling) L2A(Liquid to Air)

Slide 16

Slide 16 text

液体冷却システムの導⼊課題(L2A) 16 床下に冷却⽔の配管を張り巡らせる必要があり、導⼊に時間がかかる 引⽤: AI Factory for the New Industrial Revolution | NVIDIA GTC24

Slide 17

Slide 17 text

AWSの場合 17 市場の既製品では、AWSが求める「スピード」と「スケール」を実現できませんでした 参考: AWS’s New Liquid Cooling Solution Rattled the Market—But Is It Truly Disruptive? ● リードタイム: 新規データセンター建設には数年かかる ● 拡張性: 既製品はAWSの巨⼤なスケール要求に合わない ● 効率⾯: 既製品ではDCのフロアスペースを取りすぎる ● 改修コスト: 既存データセンターの⼤幅な改修が必要

Slide 18

Slide 18 text

液体冷却システムを作った 18 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale IRHX(In-Row Heat Exchanger)の登場

Slide 19

Slide 19 text

設計思想 19 ラックのためにデータセンターを設計する必要がない 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 20

Slide 20 text

IRHX 20 3つのコンポーネントに分かれています 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale ⽔配分ユニット ポンプ ファンコイル

Slide 21

Slide 21 text

IRHX 21 サーバラック横の⽔配分キャビネットからサーバーラックへ直接配管 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 22

Slide 22 text

IRHX 22 ポンプから送り出された冷却液で熱源(GPUのチップ)を直接冷却 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 23

Slide 23 text

IRHX 23 熱を奪った冷却液はラック隣の⽔配分キャビネットへ戻り 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 24

Slide 24 text

IRHX 24 ポンプ横のファンで熱くなった冷却液を冷やし、最終的に熱は既存の空調システムで処理 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 25

Slide 25 text

拡張性が⾼い 25 将来GPUがもっと熱くなっても、ファンを追加するだけで対応できる 引⽤: Introducing Amazon EC2 P6e-GB200 UltraServers: Powering Frontier AI at Scale

Slide 26

Slide 26 text

最近の製品(Delta's Air-Assisted Liquid Cooling) 26 引⽤: 革新的冷却システム | Air-Assisted Liquid Cooling with Side Car Heat Exchanger ラックの隣に液冷ユニットを配置する構成

Slide 27

Slide 27 text

まとめ 27 ● ⽣成AIブームでGPU需要が爆発 ● 最新のGPUは液冷必須 ● AWSは既存のDCを活かした設計で液体冷却システム(IRHX)を開発し解決した

Slide 28

Slide 28 text

No content