Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
無限ストレージ
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Satoru Takeuchi
PRO
July 10, 2021
Technology
16k
16
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
無限ストレージ
以下イベントの発表資料です
https://kernelvm.connpass.com/event/209105/
Satoru Takeuchi
PRO
July 10, 2021
More Decks by Satoru Takeuchi
See All by Satoru Takeuchi
システム強制終了時にファイルシステムの整合性を保つ~ コピーオンライト編 ~
sat
PRO
0
53
システム強制終了時に ファイルシステムの整合性を保つ ~ ジャーナリング編 ~
sat
PRO
1
58
ファイルシステムの整合性を回復するfsck
sat
PRO
1
59
小学校5,6年生向けキャリア教育 大人になるまでの道
sat
PRO
8
4.9k
ファイルシステムの不整合
sat
PRO
2
150
書籍執筆での生成AIの活用
sat
PRO
2
510
ChatGPTに従って体調管理2026
sat
PRO
0
180
eBPF
sat
PRO
1
160
waruiBPF
sat
PRO
0
150
Other Decks in Technology
See All in Technology
Android の公式 Skill / Android skills
yanzm
0
110
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
360
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
150
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
120
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
1.1k
LLMと共に進化するプロセスを目指して
ymatsuwitter
12
3.9k
protovalidate-es を導入してみた
bengo4com
0
160
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
130
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
980
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
210
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
640
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
510
Featured
See All Featured
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
We Are The Robots
honzajavorek
0
240
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Language of Interfaces
destraynor
162
27k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
22k
Automating Front-end Workflow
addyosmani
1370
210k
Exploring anti-patterns in Rails
aemeredith
3
400
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Transcript
無限ストレージ Jul. 10th, 2021 Satoru Takeuchi twitter: satoru_takeuchi, EnSatoru 1
ストレージのコストは高い 1. ハードウェアコストは高い 2. ストレージシステムを組むコストも高い 3. 運用コストも高い 2
今日のテーマ 1. ハードウェアコストは高い 2. ストレージシステムを組むコストも高い 3. 運用コストも高い 3
容量が無限のストレージさえあれば… 1. 構築 2. 容量を無限に増やす 3. バイト単価が実質ゼロに 4. うれしい 4
実現方法: Cephを使う • CephはOSSの分散ストレージ • 提供するストレージ ◦ ブロックデバイス(RBD) ◦ ファイルシステム(CephFS)
◦ オブジェクトストレージ (RGW) 5
Cephのアーキテクチャ 6 ストレージプール RBD CephFS RGW node node node node
disk OSD disk OSD disk OSD disk OSD データはOSD間に均等に分散配置される データはOSD間に均等に分散配置される データはOSD間に均等に分散配置される データは全OSDに均等に分散配置される
RBDに注目! 7 ストレージプール RBD node node node node disk OSD
disk OSD disk OSD disk OSD
もしRBDの上にOSDを作れれば… 8 ストレージプール RBD node node node node disk OSD
disk OSD disk OSD disk OSD OSD
もしOSD on RBDのみからクラスタを作れれば… 9 ストレージプール rbd OSD rbd OSD rbd
OSD rbd OSD
無限ストレージができるのでは? 10 ストレージプール rbd OSD rbd OSD rbd OSD rbd
OSD 超自然的パワー 無限のデータ やったね!
つくりかた 1. 物理ディスク上のOSD(以下OSD on diskと記載)からCephクラスタを作る 2. クラスタからRBDを切り出す 3. RBD上にOSD(以下OSD on
RBDと記載)を作ってクラスタに組み込む 4. OSD on diskをクラスタから切り離す 11
環境 • Ubuntu: 18.04.4 • Linuxカーネル: 4.15.0-99 • Ceph: v15.2.12
• Rook(Cephのオーケストレータ): v1.6.7 12
初期状態 13 ストレージプール disk OSD 1node, 1OSD on disk(10GiB)のシンプルな構造 #
ceph -s ... osd: 1 osds: 1 up (since 9m) …usage: 1.0 GiB used, 9.0 GiB / 10 GiB avail
RBDを作る 14 ストレージプール disk OSD RBD
次: RBDの上にOSDを作る 15 ストレージプール disk OSD RBD OSD
成功 16 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 2 osds: 2 up
容量も倍になった! 17 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 2 osds: 2 up ... usage: 2.0 GiB used, 18 GiB / 20 GiB avail
次: OSD on diskをクラスタから切り離す 18 ストレージプール disk OSD RBD OSD
成功! 19 ストレージプール disk OSD RBD OSD # ceph -s
... osd: 1 osds: 1 up ... usage: 1.0 GiB used, 9.0 GiB / 10 GiB avail
…と思ったら死んだ! 20 ストレージプール disk OSD RBD OSD osd: 1 osds:
0 up
原因 21 ストレージプール disk OSD RBD OSD 1. OSD on
RBDのメタデータはOSD on diskに保存されている 2. OSD on diskを削除するとそこにあったデータはロスト 3. OSD on RBDが機能しなくなりDOWN 新OSDのメタデータ
対策: データを冗長化させて徐々に移動させる 22 1. 最初にOSD on diskを二つ作る 2. OSD on
RBDを2つ作る 3. OSD on diskを1つ削除。このOSDにあったデータは他の OSDに移動 4. OSD on diskをもう1つ削除。その後は同上
初期状態その2 23 ストレージプール disk OSD • 1node, 2OSD on disk(それぞれ10GiB)
# ceph -s ... osd: 2 osds: 2 up … usage: 2.0 GiB used,18.0 GiB / 20 GiB avail disk OSD
次: OSD on RBDを2つ作る 24 ストレージプール disk OSD disk OSD
RBD OSD RBD OSD
問題発生: データのリバランスが終わらない 25 ストレージプール disk OSD RBD OSD RBD OSD
disk OSD • 期待値: OSD on disk上のデータの半分が OSD on RBDに移動 • 実際: 全然進まない
原因: 循環I/O 26 ストレージプール disk OSD RBD OSD RBD OSD
disk OSD 1. OSD on disk上のデータをOSD on RBDに移動 2. 移動時のwriteは同期write 3. OSD on RBDへの同期write->OSD on diskへの同期write->OSD on RBDへの(ry
解決方法: 同期writeしないようにCephを改造 27 • open()に付与されたO_SYNC,O_DSYNC,O_DIRECTを削除 • sync系システムコールの呼び出しをすべて削除 ◦ sync(), fsync(),
fdatasync(), sync_file_range()...
改造したCephを使ってもう一回やってみると… 28 ストレージプール disk OSD disk OSD RBD OSD RBD
OSD
やっぱり循環I/O発生! 29 ストレージプール disk OSD RBD OSD RBD OSD disk
OSD • 原因不明 • カーネルのrbdドライバの変更が必要 ? • ここで時間切れ
(推測) 仮に次のステップに行けたとして… 30 ストレージプール RBD OSD RBD OSD
(推測) こうなるか? 31 ストレージプール RBD OSD RBD OSD やったね! 無限I/O
超自然的パワー
(推測) 無限に書き込むと… 32 ストレージプール RBD OSD RBD OSD できるよね? 無限write
(推測) たぶん死ぬ 33 ストレージプール RBD OSD RBD OSD 君にはがっかりだ RBD
無限write カーネルパニック!
(推測) 原因 1. OSD on RBDのデータはアタッチされたノードのメモリ上にのみ存在 2. メモリが足りないとOOM発動 3. プロセスを皆殺しにした後にカーネルパニック
4. ノード上のデータはすべて消える 34
結論 • 超自然的パワーは無かった • 無限ストレージも無かった • ハードウェアコストは高い 35
おわり 36 残念だったな