Slide 1

Slide 1 text

Google Cloud の AI を支える
 裏側のインフラを垣間見る!
 クラスメソッドGoogle Cloud Next ’24ふり返り勉強会
 アライアンス事業部
 大栗 宗
 1 #cm_next24recap

Slide 2

Slide 2 text

自己紹介 大栗 宗(@maroon1st) Next は 2回目の参加 日系SIer → クラスメソッド → 某外資 → クラスメソッド (2回目) ラスベガスは 9回目(ハワイは 2回目) Cloudflare のプリセールスをやったり二刀流 Top Engineer ● Cloudflare, Google Cloud, AWS, etc ● Google Cloud Partner Top Engineer 2023, 2024 ● 2022, 2023 Japan AWS Top Engineers (Database) ● 2022, 2023 Japan AWS All Certifications Engineers #cm_next24recap

Slide 3

Slide 3 text

行ってきました! #cm_next24recap

Slide 4

Slide 4 text

#cm_next24recap

Slide 5

Slide 5 text

#cm_next24recap

Slide 6

Slide 6 text

#cm_next24recap

Slide 7

Slide 7 text

Opening Keynote: The new way to cloud #cm_next24recap

Slide 8

Slide 8 text

Opening Keynote: The new way to cloud ほとんど生成 AI に関する発表でしたが、 生成 AI を支える裏方の発表に少し目を向けてみます。 ● コンピュート ○ TPU v5p ○ Axion ● GPU ○ A3 Mega VMs (NVIDIA H100) ○ GB200 NVL72 ● ストレージ機能 ○ Cloud Storage Fuse Caching ○ Parallelstore Caching ○ Hyperdisk ML ● etc #cm_next24recap

Slide 9

Slide 9 text

Google Axion #cm_next24recap

Slide 10

Slide 10 text

TPU / Cloud GPU / GDC Cloud TPU Cloud GPU Distributed Cloud #cm_next24recap

Slide 11

Slide 11 text

ストレージに関するセッション ARC306 How to define a storage infrastructure for AI and analytical workloads AI と分析でユースケースに合わせた最適なストレージソ リューションを学ぶセッション #cm_next24recap

Slide 12

Slide 12 text

ストレージに関するセッション AI データパイプラインで、データ プレパレーション、トレーニ ング、推論にストレージに関する課題がある #cm_next24recap

Slide 13

Slide 13 text

データ プレパレーション ● Anywhere Cache:ゾーンごとのキャッシュで Cloud Storage のスループットを向上させる #cm_next24recap

Slide 14

Slide 14 text

トレーニング ● Cloud Storage FUSE local cache:I/O のリード高速化 ● Accelerated Dataloader:Pytorch で GCS からデータを高速 にロードする #cm_next24recap

Slide 15

Slide 15 text

トレーニングとチェックポイント ● Parallelstore:DAOS の並列ファイルシステム ● Hyperdisk ML:AI に最適化されたブロック ストレージ #cm_next24recap

Slide 16

Slide 16 text

モデルの提供(推論) ● Hyperdisk ML:AI に最適化されたブロック ストレージ ● Cloud Storage FUSE:バケットを直接マウント #cm_next24recap

Slide 17

Slide 17 text

クラウド ストレージの新機能 #cm_next24recap

Slide 18

Slide 18 text

ウーブン・バイ・トヨタ マルチクラウドでの AI プラットフォーム環境を構築 #cm_next24recap

Slide 19

Slide 19 text

ウーブン・バイ・トヨタ 以前のクラウド トレーニング ソリューションでは Lustre サービスを使用していたが大規模化で問題発生 #cm_next24recap

Slide 20

Slide 20 text

ウーブン・バイ・トヨタ Cloud Storage FUSE により十分なパフォーマンスで 低コストになりデータコピーも不要に #cm_next24recap

Slide 21

Slide 21 text

ウーブン・バイ・トヨタ プレビューの Cloud Storage FUSE Anywhere Cache で 2回目のトレーニングが 33% 高速化 #cm_next24recap

Slide 22

Slide 22 text

それだけではなく #cm_next24recap

Slide 23

Slide 23 text

Google Cloud 全体を 裏側で支える機能 #cm_next24recap

Slide 24

Slide 24 text

Titanium #cm_next24recap

Slide 25

Slide 25 text

Titanium Google のデータセンターのイノベーションは、 Jupiter、Borg、Colossus #cm_next24recap

Slide 26

Slide 26 text

Titanium ● Titan セキュリティ ● スケーラブル ファブリック ● 階層的オフロード #cm_next24recap

Slide 27

Slide 27 text

Titanium #cm_next24recap

Slide 28

Slide 28 text

Titanium #cm_next24recap

Slide 29

Slide 29 text

Titanium #cm_next24recap

Slide 30

Slide 30 text

Titanium #cm_next24recap

Slide 31

Slide 31 text

Titanium #cm_next24recap

Slide 32

Slide 32 text

Titanium #cm_next24recap

Slide 33

Slide 33 text

サマリ ● Google の AI の進化はデータサイエンスだけではない ● ストレージの進化も AI にマウントは必要 ● データセンター規模のスケールを支える イノベーションがある #cm_next24recap

Slide 34

Slide 34 text

34 #cm_next24recap