Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
無限ストレージ
Search
Satoru Takeuchi
PRO
July 10, 2021
Technology
16
16k
無限ストレージ
以下イベントの発表資料です
https://kernelvm.connpass.com/event/209105/
Satoru Takeuchi
PRO
July 10, 2021
Tweet
Share
More Decks by Satoru Takeuchi
See All by Satoru Takeuchi
ファイルシステムへのアクセス方法
sat
PRO
0
20
ファイルシステム
sat
PRO
1
22
低レイヤソフトウェア技術者が YouTuberとして食っていこうとした話
sat
PRO
7
6.1k
ポーリングと割り込み
sat
PRO
1
76
Rook: Intro and Deep Dive With Ceph
sat
PRO
1
140
会社員しながら本を書いてきた知見の共有
sat
PRO
3
870
デバイスにアクセスするデバイスファイル
sat
PRO
1
58
ファイルシステムのデータを ブロックデバイスへの操作で変更
sat
PRO
1
46
デバイスドライバ
sat
PRO
0
78
Other Decks in Technology
See All in Technology
第4回 関東Kaggler会 [Training LLMs with Limited VRAM]
tascj
12
1.7k
実践アプリケーション設計 ②トランザクションスクリプトへの対応
recruitengineers
PRO
2
140
生成AI利用プログラミング:誰でもプログラムが書けると 世の中どうなる?/opencampus202508
okana2ki
0
190
見てわかるテスト駆動開発
recruitengineers
PRO
4
280
夢の印税生活 / Life on Royalties
tmtms
0
280
Backboneとしてのtimm2025
yu4u
4
1.4k
浸透しなさいRFC 5322&7208
hinono
0
120
ドキュメントはAIの味方!スタートアップのアジャイルを加速するADR
kawauso
3
340
Android Studio の 新しいAI機能を試してみよう / Try out the new AI features in Android Studio
yanzm
0
270
AIが住民向けコンシェルジュに?Amazon Connectと生成AIで実現する自治体AIエージェント!
yuyeah
0
260
自治体職員がガバクラの AWS 閉域ネットワークを理解するのにやって良かった個人検証環境
takeda_h
2
380
ABEMAにおける 生成AI活用の現在地 / The Current Status of Generative AI at ABEMA
dekatotoro
0
650
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
820
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
The Cost Of JavaScript in 2023
addyosmani
53
8.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Building Applications with DynamoDB
mza
96
6.6k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
The Pragmatic Product Professional
lauravandoore
36
6.8k
KATA
mclloyd
32
14k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Transcript
無限ストレージ Jul. 10th, 2021 Satoru Takeuchi twitter: satoru_takeuchi, EnSatoru 1
ストレージのコストは高い 1. ハードウェアコストは高い 2. ストレージシステムを組むコストも高い 3. 運用コストも高い 2
今日のテーマ 1. ハードウェアコストは高い 2. ストレージシステムを組むコストも高い 3. 運用コストも高い 3
容量が無限のストレージさえあれば… 1. 構築 2. 容量を無限に増やす 3. バイト単価が実質ゼロに 4. うれしい 4
実現方法: Cephを使う • CephはOSSの分散ストレージ • 提供するストレージ ◦ ブロックデバイス(RBD) ◦ ファイルシステム(CephFS)
◦ オブジェクトストレージ (RGW) 5
Cephのアーキテクチャ 6 ストレージプール RBD CephFS RGW node node node node
disk OSD disk OSD disk OSD disk OSD データはOSD間に均等に分散配置される データはOSD間に均等に分散配置される データはOSD間に均等に分散配置される データは全OSDに均等に分散配置される
RBDに注目! 7 ストレージプール RBD node node node node disk OSD
disk OSD disk OSD disk OSD
もしRBDの上にOSDを作れれば… 8 ストレージプール RBD node node node node disk OSD
disk OSD disk OSD disk OSD OSD
もしOSD on RBDのみからクラスタを作れれば… 9 ストレージプール rbd OSD rbd OSD rbd
OSD rbd OSD
無限ストレージができるのでは? 10 ストレージプール rbd OSD rbd OSD rbd OSD rbd
OSD 超自然的パワー 無限のデータ やったね!
つくりかた 1. 物理ディスク上のOSD(以下OSD on diskと記載)からCephクラスタを作る 2. クラスタからRBDを切り出す 3. RBD上にOSD(以下OSD on
RBDと記載)を作ってクラスタに組み込む 4. OSD on diskをクラスタから切り離す 11
環境 • Ubuntu: 18.04.4 • Linuxカーネル: 4.15.0-99 • Ceph: v15.2.12
• Rook(Cephのオーケストレータ): v1.6.7 12
初期状態 13 ストレージプール disk OSD 1node, 1OSD on disk(10GiB)のシンプルな構造 #
ceph -s ... osd: 1 osds: 1 up (since 9m) …usage: 1.0 GiB used, 9.0 GiB / 10 GiB avail
RBDを作る 14 ストレージプール disk OSD RBD
次: RBDの上にOSDを作る 15 ストレージプール disk OSD RBD OSD
成功 16 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 2 osds: 2 up
容量も倍になった! 17 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 2 osds: 2 up ... usage: 2.0 GiB used, 18 GiB / 20 GiB avail
次: OSD on diskをクラスタから切り離す 18 ストレージプール disk OSD RBD OSD
成功! 19 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 1 osds: 1 up ... usage: 1.0 GiB used, 9.0 GiB / 10 GiB avail
…と思ったら死んだ! 20 ストレージプール disk OSD RBD OSD osd: 1 osds:
0 up
原因 21 ストレージプール disk OSD RBD OSD 1. OSD on
RBDのメタデータはOSD on diskに保存されている 2. OSD on diskを削除するとそこにあったデータはロスト 3. OSD on RBDが機能しなくなりDOWN 新OSDのメタデータ
対策: データを冗長化させて徐々に移動させる 22 1. 最初にOSD on diskを二つ作る 2. OSD on
RBDを2つ作る 3. OSD on diskを1つ削除。このOSDにあったデータは他の OSDに移動 4. OSD on diskをもう1つ削除。その後は同上
初期状態その2 23 ストレージプール disk OSD • 1node, 2OSD on disk(それぞれ10GiB)
# ceph -s ... osd: 2 osds: 2 up … usage: 2.0 GiB used,18.0 GiB / 20 GiB avail disk OSD
次: OSD on RBDを2つ作る 24 ストレージプール disk OSD disk OSD
RBD OSD RBD OSD
問題発生: データのリバランスが終わらない 25 ストレージプール disk OSD RBD OSD RBD OSD
disk OSD • 期待値: OSD on disk上のデータの半分が OSD on RBDに移動 • 実際: 全然進まない
原因: 循環I/O 26 ストレージプール disk OSD RBD OSD RBD OSD
disk OSD 1. OSD on disk上のデータをOSD on RBDに移動 2. 移動時のwriteは同期write 3. OSD on RBDへの同期write->OSD on diskへの同期write->OSD on RBDへの(ry
解決方法: 同期writeしないようにCephを改造 27 • open()に付与されたO_SYNC,O_DSYNC,O_DIRECTを削除 • sync系システムコールの呼び出しをすべて削除 ◦ sync(), fsync(),
fdatasync(), sync_file_range()...
改造したCephを使ってもう一回やってみると… 28 ストレージプール disk OSD disk OSD RBD OSD RBD
OSD
やっぱり循環I/O発生! 29 ストレージプール disk OSD RBD OSD RBD OSD disk
OSD • 原因不明 • カーネルのrbdドライバの変更が必要 ? • ここで時間切れ
(推測) 仮に次のステップに行けたとして… 30 ストレージプール RBD OSD RBD OSD
(推測) こうなるか? 31 ストレージプール RBD OSD RBD OSD やったね! 無限I/O
超自然的パワー
(推測) 無限に書き込むと… 32 ストレージプール RBD OSD RBD OSD できるよね? 無限write
(推測) たぶん死ぬ 33 ストレージプール RBD OSD RBD OSD 君にはがっかりだ RBD
無限write カーネルパニック!
(推測) 原因 1. OSD on RBDのデータはアタッチされたノードのメモリ上にのみ存在 2. メモリが足りないとOOM発動 3. プロセスを皆殺しにした後にカーネルパニック
4. ノード上のデータはすべて消える 34
結論 • 超自然的パワーは無かった • 無限ストレージも無かった • ハードウェアコストは高い 35
おわり 36 残念だったな