OCHaCafe S10 #6 クラウドストレージ活用術

クラウドストレージ活用術 Yuki Sogawa Oracle Japan

自己紹介曽川宥輝日本オラクル CloudNative/AI,ML クラウドエンジニアバックグラウンド大阪大学でデータセンターの省電力化の研究をしていました趣味
ギター、バイク、ゲームなど 2 Copyright © 2025, Oracle and/or its affiliates

本日お話しすること 3 Copyright © 2025, Oracle and/or its affiliates 1
2 3 4 5 クラウドストレージとは Ceph概要 Lustre概要ユースケースから考えるストレージ選択と技術解剖まとめ

クラウドストレージとは

クラウドストレージの分類クラウドストレージは大きく3つに分類される 1. ブロックストレージ 2. ファイルストレージ 3. オブジェクトストレージ 5 Copyright
© 2025, Oracle and/or its affiliates

ブロックストレージ最も基本的なクラウドストレージ OSからはiSCSIなどで接続するので、物理的なストレージを接続したように扱える • 複数の物理ディスクを束ねてディスクプールを作成 • ディスクプールから論理的なボリュームを切り出して提供 6 Copyright ©
2025, Oracle and/or its affiliates 物理ディスクディスクプール論理ディスク物理ディスク物理ディスク論理ディスク

ブロックストレージ特徴ブロック単位でデータアクセスができ、余計なオーバーヘッドがない 7 Copyright © 2025, Oracle and/or its
affiliates ファイルの変更箇所に該当するブロックのみを書き換えるファイルA ブロックストレージメタデータサーバーへのアクセスやファイル全体の書き換えなどファイルAの一部を書き換えた時

ファイルストレージ複数のサーバー間でファイルを共有できるストレージ • ファイルシステム • ファイル共有の機能を持つストレージ 8 Copyright ©
2025, Oracle and/or its affiliates ディレクトリの概念がある複数ユーザーからアクセスできるファイルストレージ

ファイルストレージ特徴ファイルシステムとファイル共有の機能がある 9 Copyright © 2025, Oracle and/or its
affiliates ファイルシステム inodeを使ってディレクトリの概念を作る ※ext4などではDBAではなくエクステントを保持するファイル共有ロック機能を使ってファイルが壊れないように Inode 番号ファイルのメタ情報親のinode番号 Data Block Address Data Block Address データの実態を参照できる DBAリストアドレス帳を参照することもファイルを開くロックを付与して読み取り専用にディレクトリ

オブジェクトストレージ HTTPでアクセスする大容量ストレージオブジェクトという単位でデータアクセスするディレクトリの概念はなく、全てのオブジェクトがフラットに配置される通常、HTTP/HTTPSでアクセスする 10 Copyright © 2025, Oracle
and/or its affiliates HTTPアクセスフラットに配置されるオブジェクトストレージ

オブジェクトストレージ特徴 HTTPでアクセスするので、インターネット越しに様々なデバイスからアクセスできる様々なメタデータを持てる 11 Copyright © 2025, Oracle and/or
its affiliates インターネット越し・様々なデバイスからのアクセスが容易 HTTPなのでファイアウォールを通りやすい様々なメタデータを持てるファイルシステムのように決められたメタデータだけではなく、自由にメタデータを付与することができる • メタデータでオブジェクトをフィルタリングするなどファイアウォールオブジェクトストレージオブジェクトストレージ IoTデバイス・ MQTTブローカースマートフォン HTTPなので専用ドライバーなどは不要

クラウドストレージの特徴まとめ比較項目ブロックストレージファイルストレージオブジェクトストレージデータの粒度ブロックファイルオブジェクト
アクセス方法低レベルプロトコル（iSCSIなど）ネットワーク共有（NFS, SMBなど） HTTP/HTTPS 性能特性（レイテンシ）極めて低い低〜中高い性能特性（スループット）高い中（バックエンドが分散ストレージの場合は高い）基本的には低め（並列アクセスすれば高められる）ファイルシステムなし（自分で構築）ありなし（擬似的に再現可能） 12 Copyright © 2025, Oracle and/or its affiliates

クラウドストレージの使い分けブロックストレージ • ミリ秒以下の低レイテンシや高いIOPSが必要な場合 • ファイルシステム自体を自分で制御・フォーマットしたい場合ファイルストレージ •
複数のサーバーから同時に読み書きを行いたい場合オブジェクトストレージ • 大容量のデータを低コストで保存したい場合 • インターネット越しにデータを共有したい場合 Copyright © 2025, Oracle and/or its affiliates 13 例 • VMのブートボリューム • DBのデータファイル配置場所例 • スケールアウトするWebサーバーのコンテンツ共有例 • バックアップ＆アーカイブ保存場所 • AI/ML分析のためのデータレイク基盤

クラウドストレージの実装ここまでそれぞれのクラウドストレージの特徴を説明してきましたが… プロダクトによって実装は結構異なります！なので、今回は • ブロックストレージ • ファイルストレージ • オブジェクトストレージ
の全てを提供できる、Cephを代表として説明しますまた、近年のAIブームに乗っかり、AIの学習データ配置場所に使われることが多いLustreも説明します（Lustreはファイルストレージです） 14 Copyright © 2025, Oracle and/or its affiliates

Ceph概要

Cephとは • ブロックストレージ • ファイルストレージ • オブジェクトストレージを提供する、統合ストレージ基盤複数のノードでクラスタを構成し、データは複数のノードに複製する Kubernetes上にデプロイ・管理するためのオペレーター（Rook）もある
16 Copyright © 2025, Oracle and/or its affiliates

Cephのアーキテクチャ概要 • RADOS • オブジェクト単位でデータを保存する • 複数のサーバーで構成 • LIBRADOS •
RADOSと通信するためのライブラリ • ブロックストレージとして使うには • librbdというライブラリをクライアントに入れる • ファイルストレージとして使うには • CephFSサーバーをたてる • オブジェクトストレージとして使うには • CephRGWサーバーをたてる 17 Copyright © 2025, Oracle and/or its affiliates

RADOSのコンポーネント OSD (Object Storage Daemon) データを実際に格納・管理するデーモンプロセス Cephクラスタを構成する各サーバーノードにインストールされる基本的にはディスク1つにつき１プロセス主な機能 •
I/O処理 • レプリケーション • 障害検出とリカバリ • リバランス • ピアリング 18 Copyright © 2025, Oracle and/or its affiliates LIBRADOS OSD OSD 物理ディスク物理ディスク I/O処理 • レプリケーション • 障害検出とリカバリ • リバランス • ピアリング OSD OSD

メタデータサーバーに依存する場合 RADOSのコンポーネント CRUSHアルゴリズムデータの配置・レプリケーションを決定する、データ配置アルゴリズムメタデータサーバーに依存せずクライアント自身でデータの配置を計算可能なので、クライアント数に関わらず高速 19 Copyright © 2025, Oracle
and/or its affiliates メタデータサーバーに依存しない場合(CRUSHアルゴリズム) メタデータサーバーストレージサーバー群クライアントアクセスが集中し、ボトルネックになるストレージサーバー群クライアント側でデータの配置場所を計算するので、直接アクセスできるクライアントがスケールアウトできる

RADOSのコンポーネント Pool / Placement Group (PG) Pool 目的別にRADOSのストレージを分割する論理グループ SSDを使っているもの →
ssd-pool CephFS用 → cephfs-pool レプリケーション数が5のもの→ replication-5-pool など Placement Group (PG) Poolで決められたレプリケーション数を守るためのOSDのグループレプリケーション数3の場合、[OSD#1 (Primary), OSD#2, OSD#3]など 20 Copyright © 2025, Oracle and/or its affiliates PG1 PG2 PG3 Pool

RADOSのコンポーネント MON (Monitor) Cephクラスタの全体的な状態と設定（クラスタマップ）を管理し、一貫性を保証するためのデーモンプロセスクラスタマップ 21 Copyright © 2025, Oracle
and/or its affiliates • どのOSDがクラスタに参加しているか • 各OSDが稼働中かなど、OSDの健全性情報を管理 • PGの総数 • 各PGの状態、OSDへの割り当て状況などを管理 • どのMONがアクティブか • どのMONがクォーラムに参加しているかなど、MONの健全性情報を管理 • データの配置情報を管理 OSDマップ MONマップ PGマップ CRUSHマップこのような情報を、過半数のMONノードによる合意形成によって一貫性を保証する

基本的なファイルアクセスの流れ概要 22 Copyright © 2025, Oracle and/or its affiliates
クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 2. データを書き込む場所を特定 3. データアクセス

基本的なファイルアクセスの流れ MONノードから、データの配置情報やノードのステータス情報を受け取る 23 Copyright © 2025, Oracle and/or its affiliates
クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 2. データを書き込む場所を特定 3. データアクセス

基本的なファイルアクセスの流れ MONノードからの情報を使って、２ステップでデータを書き込む場所を特定するまずは、データのPGを単純なハッシュ計算で求める 24 Copyright © 2025, Oracle and/or its
affiliates クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 2. データのPGを計算で特定 3. データアクセス

基本的なファイルアクセスの流れ次に、クラスタマップの情報をもとにデータの場所やレプリカの場所などを計算するこの後、書き込み or 読み込みで少し挙動が異なる 25 Copyright © 2025,
Oracle and/or its affiliates クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 2. クラスタマップをもとにOSDの場所を計算（CRUSHアルゴリズム） 3. データアクセス

基本的なファイルアクセスの流れ書き込み時クラスタマップの情報をもとに、ファイルの場所やレプリカの場所などを計算する 26 Copyright © 2025, Oracle and/or its
affiliates クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 CRUSH実行結果 [OSD#3 (Primary), OSD#1]へ書き込み 3. データアクセス

基本的なファイルアクセスの流れ書き込み時 27 Copyright © 2025, Oracle and/or its affiliates
クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 CRUSH実行結果 [OSD#3 (Primary), OSD#1]へ書き込み 3. プライマリーに書き込み

クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 CRUSH実行結果 [OSD#3 (Primary), OSD#1]へ書き込み 3. プライマリーに書き込み 4. データをレプリカOSDへ転送

クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 CRUSH実行結果 [OSD#3 (Primary), OSD#1]へ書き込み 3. プライマリーに書き込み 5. 書き込み完了後、ACKを返す 4. データをレプリカOSDへ転送

基本的なファイルアクセスの流れ書き込み時このように、レプリカの書き込みが完了したら書き込み完了となる（同期レプリケーション） 30 Copyright © 2025, Oracle and/or its
affiliates クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 CRUSH実行結果 [OSD#3 (Primary), OSD#1]へ書き込み 3. プライマリーに書き込み 5. 書き込み完了後、ACKを返す 4. データをレプリカOSDへ転送 6. すべてのレプリカからACKが返ったら、クライアントにACKを返す

基本的なファイルアクセスの流れ読み込み時クラスタマップの情報をもとに、ファイルの場所やレプリカの場所などを計算する 31 Copyright © 2025, Oracle and/or its
affiliates クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 CRUSH実行結果 [OSD#3 (Primary)]から読み込み 3. ファイルアクセス

基本的なファイルアクセスの流れ読み込み時 32 Copyright © 2025, Oracle and/or its affiliates
クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 3. プライマリーから読み込み CRUSH実行結果 [OSD#3 (Primary)]から読み込み

基本的なファイルアクセスの流れ読み込み時整合性を優先するため、プライマリからしか読み込まないただし、あくまで１オブジェクトの話なので、複数オブジェクトで意味単位を形成する場合は分散する 33 Copyright © 2025, Oracle and/or
its affiliates クライアント MONノード OSD#1 OSD#2 OSD#3 1. クラスタマップを取得 3. プライマリーから読み込み CRUSH実行結果 [OSD#3 (Primary)]から読み込み 4. データ返送

補足 • CRUSHアルゴリズムは、PGをどのOSDに割り当てるかを確率的に決定する • PGが少なすぎるとデータが偏り、PGが多すぎるとPGの管理が大変になるので、適切に設計する必要がある • Cephには自動でPGの数を決めてくれる機能もある 34 Copyright ©
2025, Oracle and/or its affiliates PG3 PG2 PG1 クライアント特定のPGにデータが偏っている場合 PG3に属するOSDにばかりデータが書き込まれるいい感じにPGが設計されている場合 PG3 PG2 PG1 クライアント書き込まれるデータが分散する

RADOSで扱うデータあくまでオブジェクトとして保存するだけ RADOSではあくまでデータをオブジェクトとして保存するだけなので、 • ブロックストレージ • ファイルストレージ • オブジェクトストレージのような使い方をするには
+α の機能が必要になる 35 Copyright © 2025, Oracle and/or its affiliates

ブロックストレージ（RBD: RADOS Block Device） librbdを使って、複数オブジェクトを一つのディスクとして扱うデフォルトでは4MBのオブジェクトに仮想ディスクを分割する 36 Copyright © 2025,
Oracle and/or its affiliates OS librbd クライアント RADOS ディスクとして見えるオフセットxxMB目のデータを書きたいと要求対応するオブジェクト名と、そのどの部分かを計算 librados CRUSHを実行して適切なOSDに書き込む

ファイルストレージ（CephFS）メタデータサーバー（MDS）を利用してオブジェクトをファイルに見せるファイルの中身はMDSを経由せず、クライアントが直接RADOSとやりとりする 37 Copyright © 2025, Oracle and/or its
affiliates クライアント MDS RADOS inode情報やアクセス権を管理データの実体を管理ファイルAを開きたい Inode情報とアクセス権データアクセス

オブジェクトストレージ（Ceph RADOS Gateway）クライアントはRADOSのことは全く知らず、ただHTTPリクエストを投げるだけ Ceph RGWがCRUSH計算やデータ保存を代行する 38 Copyright © 2025,
Oracle and/or its affiliates クライアント Ceph RGW (RADOS Gateway) RADOS HTTPでリクエスト (PUT /bucket/hoge.txt) Webサーバーとして動作し、RADOSのオブジェクト操作に変換

Cephのコンポーネントまとめ 39 Copyright © 2025, Oracle and/or its affiliates 引用:
https://speakerdeck.com/oracle4engineer/oracle-cloud-hangout-cafe-cloud-nativeliu-falsesutoreziguan-li?slide=31

Lustre概要

Lustreとはオープンソースの分散並列ファイルシステム特徴 • POSIX準拠 • オンラインファイルシステムチェック • ファイルレイアウトのカスタマイズ •
異種ネットワークへの対応 • 高可用性 • セキュリティ • 容量の拡張性ユースケース • スーパーコンピューティング分野 • AI/ML学習基盤 41 Copyright © 2025, Oracle and/or its affiliates

Lustreのコンポーネント • マネジメントサーバー（MGS） • ファイルシステムの構成情報を提供 • メタデータサーバー（MDS) • データオブジェクトの配置情報などを提供 •
オブジェクトストレージサーバー（OSS) • ファイルのデータオブジェクトを提供 • Lustreクライアント • Lustreを利用するためのクライアントソフト • Lustreネットワーキング（Lnet） • クライアントとサーバー間の通信に使われるネットワークプロトコルそれぞれのサーバーが利用するブロックデバイスが xxTという名前になっている 42 Copyright © 2025, Oracle and/or its affiliates

Lustreファイルシステムを使い始めるときマネジメントサーバーにクラスタ情報を問い合わせるクライアントは、Lustreクラスタの各ノードの情報を知るために、最初だけマネジメントサーバーに問い合わせる 43 Copyright © 2025, Oracle and/or its
affiliates クライアント MGS/MGT Lustreクラスタの情報を教えてください MDS, OSSのノード情報をどうぞ mount -t lustre mgs@tcp0:/lustrefs /mnt/lustre

基本的なファイルアクセスの流れファイルにアクセスする場合、下のような処理が必要になる 44 Copyright © 2025, Oracle and/or its affiliates
クライアント MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 5. データアクセス 4. メタデータ返却

基本的なファイルアクセスの流れ 45 Copyright © 2025, Oracle and/or its affiliates クライアント
MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 5. データアクセス 4. メタデータ返却

MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 5. データアクセス 4. メタデータ返却 ※レイアウト情報: ファイルデータがどのOSSにあるかなどの情報

MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 5. データアクセス 3. メタデータ・アクセス権

MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 4. アクセス権要求 3. メタデータ・アクセス権

MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 5. ロック付与通知 4. メタデータ返却

MDS/MDT OSS/OST OSS/OST OSS/OST 1. メタデータ要求 2. レイアウト情報取得 6. データアクセス 4. メタデータ返却

Lustreは、データの配置場所を柔軟に指定できる Lustreでは、データの配置場所を管理者が柔軟に指定することができる 1. Normal / RAID0 レイアウト • 指定したOSTに対してラウンドロビン方式でストライピング 2.
複合レイアウト • ファイルサイズの成長に応じてストライピングパターンを変更 • ストレージの利用効率を上げるデータ配置 • Etc… 51 Copyright © 2025, Oracle and/or its affiliates

Lustreのスケーラビリティとパフォーマンス特徴現在の実用的な範囲実運用での使用例クライアントのスケーラビリティ 100 ~ 100,000クライアント 50,000以上（多くは10,000 ~
20,000クライアント規模）クライアントのパフォーマンスクライアントあたりネットワーク帯域幅の90% 全体：10TB/s クライアントあたり4.5GB/s メタデータ操作 1,000 ops/sec 全体：2.5TB/s OSSのスケーラビリティ OSSあたり1~32個のOST（３億オブジェクト、256TiB / OST）総数：最大1,000 OSS OSSあたり32個のOST、OSTあたり8TiB (もしくは8個のOST、OSTあたり 32TiB）総数：450 OSS OSSのパフォーマンス OSSあたり15GB/s 束ねて10TB/s OSSあたり10GB/s 束ねて2.5TB/s 52 Copyright © 2025, Oracle and/or its affiliates

Lustreのスケーラビリティとパフォーマンス特徴現在の実用的な範囲実運用での使用例 MDSのスケーラビリティ MDSあたり1~4個のMDT MDTあたり40億ファイル総数：最大256MDS MDSあたり30億ファイル（2TiB MDT×7)
MDSのパフォーマンス 50,000 ファイル作成/s 200,000メタデータ操作/s 15,000ファイル作成/s 50,000メタデータ操作/s ファイルシステムのスケーラビリティ単一ファイルの最大サイズ：32PiB 全体：総容量512PiB, ファイル総数1 兆単一ファイルの最大サイズ：数TiB 全体：総容量55PiB、ファイル総数80 億 53 Copyright © 2025, Oracle and/or its affiliates

Lustreのスケーラビリティとパフォーマンス単一ファイルの最大サイズ: 32PiB ファイルシステムの総容量: 512PiB ファイル総数: 1兆個 54 Copyright ©
2025, Oracle and/or its affiliates クライアント MDS/MDT OSS/OST OSS/OST OSS/OST 最大1,000OSS 最大32OST 最大100,000 クライアント最大256MDS OSS全体で 10TB/s OSSあたり 15GB/s 50,000 ファイル作成/s 200,000メタデータ操作/s

ユースケースから考えるストレージ選択と技術解剖

今回考えるユースケース前提クラウドストレージは、各種ベンダー・OSSごとに様々な製品がありその全てを比較することはできないので、スケールアウトするストレージ基盤として • Ceph • ブロックストレージ • ファイルストレージ
• オブジェクトストレージ • Lustre • ファイルストレージを代表としてユースケースにどれが合うかをみていきます 56 Copyright © 2025, Oracle and/or its affiliates

1. VMのブート領域としてのストレージブロックストレージ（RBD: RADOS Block Device）の場合 59 Copyright © 2025,
Oracle and/or its affiliates OS librbd クライアント RADOS ディスクとして見えるオフセットxxMB目のデータを書きたいと要求対応するオブジェクト名と、そのどの部分かを計算 librados CRUSHを実行して適切なOSDに書き込むファイルシステムの管理機能は、OSが持つランダムI/Oによる複数回のメタデータ更新が発生しても、通信のオーバーヘッドがないので高速

2. ログのアーカイブ保存先としてのストレージ求められること半永続的に保存する＆サイズが増加し続けるため、スケール可能な大容量ストレージが求められる複数のサーバーからデータが送られるため、複数クライアントから安全にアクセスできる必要がある 60 Copyright © 2025, Oracle
and/or its affiliates ファイルストレージファイルシステムには最大容量がある • inodeの枯渇 • 対象ファイル検索の負荷などが原因オブジェクトストレージ容量に制限はない • IDをハッシュ関数にかけて場所を決定する • ID空間は天文学的な数字なので、事実上枯渇しないオブジェクトストレージが最適

2. ログのアーカイブ保存先としてのストレージファイルストレージの場合 inodeの枯渇ファイルシステムでは、ファイル1つにつき1つのinode を消費するファイルシステムフォーマット時に、inodeを何個作成するかを決定し、inode tableを作成する inode
tableは後から変更することができないので、フォーマット時に決めた個数以上のファイルを作成することはできない対象ファイル検索の負荷 inodeの数を増やせばいいように思えるが、inodeの探索に非常に時間がかかってしまう 61 Copyright © 2025, Oracle and/or its affiliates inode inode inode Inodeの数以上のファイルは作成できない Inode table • 検索対象が多いと、単純に時間がかかる • ディレクトリ内のファイルが増えるとディレクトリのinodeが肥大化し、連続する領域を確保できずに断片化することも一因

2. ログのアーカイブ保存先としてのストレージ補足最近のファイルシステム（XFSなど）では、inode数は事実上無限とはいえ、 • メタデータサーバーの負荷 • 古くなったファイルの自動削除 •
オブジェクトロック機能（指定期間は管理者でも消せないようにする）などを考えるとオブジェクトストレージが適切（コストが低い） 63 Copyright © 2025, Oracle and/or its affiliates

3. LLMの学習中のチェックポイントの保存先としてストレージが必要な場合求められること • 書き込みが高速に行える（GPUを遊ばせないため） • POSIXに準拠している（Pythonなどから操作するため） 64 Copyright ©
2025, Oracle and/or its affiliates CephFS • 事前に定めたレプリカ数を維持するように同期レプリケーションされるため、書き込みスループットが Lustreと比べて低い Lustre • ファイルやディレクトリのサイズに合わせて柔軟にストライピングできるため、読み書きのスループットが非常に高い Lustreが最適

3. LLMの学習中のチェックポイントの保存先としてストレージが必要な場合 CephFSとLustreの比較実験内容 • 10GBのデータをチェックポイントファイルと見立てて、各ストレージ（CephFS, Lustre）に保存 • 60秒を時間制限として、スループットを測定結果
65 Copyright © 2025, Oracle and/or its affiliates CephFS Lustre スループット 23.0 MiB/s 71.6 MiB/s 書き込みバイト 1518 MB 4517 MB ※各ディスクのスループットは24MB/s

3. LLMの学習中のチェックポイントの保存先としてストレージが必要な場合 CephFSの場合 • 同期レプリケーションのため、書き込みスループットが低め • データのリバランスが行われるため、ストレージの性能が予測しにくい 66 Copyright ©
2025, Oracle and/or its affiliates クライアントプライマリ OSD レプリカ OSD レプリカ OSD 同期レプリケーションすべてのレプリカへ書き込みが完了してから、クライアントに書き込み完了を通知するデータのリバランス自己修復機能によって、OSDの故障や追加時にリバランスが行われるプライマリ OSD レプリカ OSD レプリカ OSD 故障規定のReplication数を満たすため、大量のデータ転送が行われる不意なディスクI/O, ネットワークI/Oの消費

3. LLMの学習中のチェックポイントの保存先としてストレージが必要な場合 CephFSの場合（特に今回の実験環境の場合）レプリケーション数に対してOSD数が少ないため、ディスクのスループットがボトルネックになった 67 Copyright © 2025, Oracle
and/or its affiliates クライアントプライマリ OSD レプリカ OSD レプリカ OSD 24MBの書き込み 24MBの書き込み 24MBの書き込み 24MBの書き込みこのように、レプリカの作成でクラスタ全体のディスクI/Oを消費してしまう

3. LLMの学習中のチェックポイントの保存先としてストレージが必要な場合 CephFSの場合（特に今回の実験環境の場合）レプリケーション数に対してOSD数が少ないため、ディスクのスループットがボトルネックになった 68 Copyright © 2025, Oracle
and/or its affiliates レプリケーション数に対して十分なOSD 数を用意すれば、書き込みスループットを向上できるクライアントプライマリ OSD レプリカ OSD レプリカ OSD 24MBの書き込み 24MBの書き込み 24MBの書き込み 24MBの書き込みプライマリ OSD レプリカ OSD レプリカ OSD 24MBの書き込み 24MBの書き込み 24MBの書き込み 24MBの書き込み

3. LLMの学習中のチェックポイントの保存先としてストレージが必要な場合 Lustreの場合 Lustreはファイル・ディレクトリ作成時に柔軟にストライピングパターンを決められるストライピングパターンのことをLustreではファイルレイアウトと呼び、さまざまなレイアウトを指定できる • Normal / RAID0 レイアウト
• 複合レイアウト • Progressive File Layout • Self Extending Layout • Metadata on MDT • File Layout Redundancy 69 Copyright © 2025, Oracle and/or its affiliates ※Lustreは基本的にレプリケーションを行わないため、書き込みスループットが高い

Normal / RAID0 レイアウト最もシンプルなレイアウトこのレイアウトでは、 • ストライプ数 • ファイルデータの保存に使用するOSTの数
• ストライプサイズ • 一つのOSTに書き込まれるデータ量 • このサイズに達したら次のOSTに切り替わるの二つのパラメータがあるファイル・ディレクトリにこれらのパラメータを事前に決めておく 70 Copyright © 2025, Oracle and/or its affiliates ファイル（2MB）チャンク 1MB チャンク 1MB OST1 OST2 ストライプ数ストライプサイズ

4. 高可用性Webコンテンツ管理システムの共有ストレージが必要な場合求められること複数のWebサーバーから同時に読み書き（ReadWriteMany）できる → ファイルストレージが最適障害が発生してもデータが失われない 73 Copyright ©
2025, Oracle and/or its affiliates CephFS • ハードウェアRAIDに頼らず、ソフトウェアレベルでデータをレプリケーションするため、サーバー筐体ごとの障害が起きても別のノードにあるコピーからデータを即座に利用できる Lustre • Lustre自体はデータの冗長性を提供しないため、ハードウェアRAIDなどに完全に依存する。RAIDコントローラー障害などでRAIDアレイ全体が破損した場合は、データを失うことになる CephFSが最適

4. 高可用性Webコンテンツ管理システムの共有ストレージが必要な場合実験内容 • 二つのクライアントから、共有のファイルシステムに１秒ごとにデータを書き込み • 擬似的な障害を発生（OSD、OSSのプロセスを終了）させ、データがどうなるかを確認 74 Copyright ©
2025, Oracle and/or its affiliates クライアントA クライアントB CephFS クライアントA クライアントB Lustre

4. 高可用性Webコンテンツ管理システムの共有ストレージが必要な場合 CephFSの場合ソフトウェアレベルでデータをレプリケーションしており、障害発生時には別のノードにあるデータを利用する 75 Copyright © 2025, Oracle and/or
its affiliates クライアントA OSD#1 OSD#2 OSD#3 MDS クライアントA OSD#1 OSD#2 OSD#3 MDS アクセス先を自動で切り替え

4. 高可用性Webコンテンツ管理システムの共有ストレージが必要な場合 Lustreの場合書き込み対象のOSSが落ちたら、ファイルシステムとして利用できなくなる（復旧待ちになる） 76 Copyright © 2025, Oracle and/or
its affiliates クライアントA OSS#1 OSS#2 OSS#3 MDS クライアントA OSS#1 OSS#2 OSS#3 MDS 書き込み先は決まっているので、動的に切り替わることはない ※新規ファイルに関しては、MDSが動いているOSSを確認して動いているものに配置する

まとめ

まとめクラウドストレージとは • ブロックストレージ: 生のディスクを提供 • ファイルストレージ: ファイル共有とファイルシステムの機能を提供 • オブジェクトストレージ:
HTTPでアクセスする大容量ストレージを提供 Cephとは • 上記のストレージ全てを提供できる分散ストレージ基盤で、ソフトウェア側でデータを保護している Lustreとは • ファイルストレージのみを提供し、データ保護をソフトウェア側で行わない代わりに超高スループットユースケースからクラウドストレージを選択するには • パフォーマンス（スループット・レイテンシ）、排他制御の有無、ファイルサイズやファイル数など、多角的に評価が必要 78 Copyright © 2025, Oracle and/or its affiliates

OCHaCafe S10 #6 クラウドストレージ活用術

OCHaCafe S10 #6 クラウドストレージ活用術

Video

More Decks by oracle4engineer

Featured

Transcript