Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ICTSC2020 Ceph
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
onokatio
March 06, 2021
Technology
260
1
Share
ICTSC2020 Ceph
ICTSC2020 LT会で話したCephの話です
onokatio
March 06, 2021
Other Decks in Technology
See All in Technology
チームで実践する AI-DLC 思考の軌跡を残すチェックポイント設計
belongadmin
0
2.2k
oracle-to-databricks-migration-with-llm-and-dbt
casek
1
430
OpenID Connectによるサービス間連携
takesection
0
160
はじめてのDatadog
kairim0
0
270
PHP と TypeScript の型システム比較:AI 時代の「型」は誰のためにあるのか? #frontend_phpcon_do / frontend_phpcon_do_2026
shogogg
1
240
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.1k
サプライチェーンセキュリティの空白地帯 - 信頼できる”依存性”の未来を考える
rung
PRO
2
650
Gradle×GitHub_ActionsでCI時間を約50%短縮 ジョブ分割の設計と落とし穴 / Cutting CI Time by ~50% with Gradle and GitHub Actions: Job-Splitting Design and Pitfalls
takatty
0
620
最低限これだけ押さえれ大丈夫_Claude Enterprise/Team企業展開ガバナンス入門
tkikuchi
1
720
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
0
400
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
730
Javaコミュニティをもっと楽しむための9箇条
takasyou
0
1.2k
Featured
See All Featured
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
310
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
280
How to Think Like a Performance Engineer
csswizardry
28
2.6k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
550
WENDY [Excerpt]
tessaabrams
11
38k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Designing Powerful Visuals for Engaging Learning
tmiket
1
390
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
130
Abbi's Birthday
coloredviolet
2
7.9k
It's Worth the Effort
3n
188
29k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
160
Thoughts on Productivity
jonyablonski
76
5.2k
Transcript
Cephの話 おのかちお
ぼく • おのかちお • 今日のSELinux問題を作った人です ◦ 前半ドタバタしてごめん… :pray: • インフラチームでストレージ周りやってました
注意 このCephは、監視基盤のCeph(Rook)とは別のクラスタです
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
以前のストレージ構成
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
Cephとは • 分散ストレージ • レプリカの話 • SPOFが居ない • OSDの自動認識 •
リバランス • S3/NFS/CephFS/RBDのインターフェイス
Cephとは - 分散ストレージ • データが分散される ◦ (機材があれば)いくらでもスケールできる • データが複製される ◦
どこかで壊れるor無くなってもデータが消えくい • 単一障害点をなくしやすい ◦ コントロールプレーンもデータプレーンも
Cephとは - レプリカの話 • レプリカ = 重複度 • レプリカサイズ3ならデータが3重に保存される ◦
ただし使用ストレージ容量も3倍 ◦ 書き込み実質速度は3倍 ◦ (今回はWritebackなので実質1倍)
Cephとは - SPOFが居ない • Cephは、Single Point Of Failure(単一障害点)ができにくい仕組 みになっています。 ◦
データプレーン: レプリカ ◦ コントロールプレーン: CRUSHアルゴリズム
Cephとは - 物理ディスクの自動認識 • Cephを構成するサーバーに新しいディスクが挿入される ↓ • 全自動で初期化・Cephへ追加
Cephとは - リバランス • データが増える or 物理ディスクが増える ↓ • 再配置・細分化
Cephとは - インターフェイス • NFS • S3 • CephFS •
RBD (Rados Block Device)
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
今回のCephの構成と容量の話 • コントロールプレーン: 6ノード • データプレーン: 6ノード ◦ SSD x6
◦ HDD x3 × 4 × 2 × 2
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
ブロックストレージをCephに置く話 • Cephの速度計測会 • humstackがブロックストレージをCephRBDに置く • ところで トラコンのVMの数について
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会 (BS展開時)
Cephの速度計測会 (VM起動時)
Cephの速度計測会 (Ceph pool)
humstackがBSをCeph RBDに置く • humstack(仮想化基盤) がCephにブロックストレージを置ける ように改良 by t-inagaki ↓ •
結果的に一つのVM作成・起動が数分程度に! ◦ コンピュートノード間のコピーが要らなくなった ◦ ただしレプリカ=1なので、分散されているだけで耐障害性 の旨みはない
ところで トラコンのVMの数について • 総VM数: 20~30台程度 • チーム数: 22 • 1VM
5GBぐらい 20 〜 30 * 22 *5 = 2 〜 3TB → レプリカサイズを3にすると、9TB超になる → SSD 6TBを超えてしまう
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
Cephのsnapshotの話 • Ceph RBDには、既存のオブジェクトをベースに別のオブジェ クトを展開する機能がある • レイヤーとして、ベースと差分を分けられる • VMの差分のみ保存され、各ストレージの共通部分は一つのブ ロックストレージに!
• 展開は爆速・実際に書き込むまで使用容量ゼロ • イメージとしてはDockerのoverlayfs
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
起こったトラブルの話 • ioDriveが認識されない • 時刻の精度を高めないといけない話 • OSDがメモリを食ってwireguardサーバーが落ちた話 • Dockerとpodmanが何故か混在した話 •
本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話
起こったトラブルの話 • ioDriveが認識されない • SSDのドライバがカスタムモジュール ◦ LV metadより先に読み込まれると、CephがLVMを認識 できない ◦
LV metadを無効化し、イベント的にdevice mapperを 認識するようにした
起こったトラブルの話 • 時刻の精度を高めないといけない話 • Cephは時刻の精度が0.05s以下でないとWARNを出す ◦ 最初はNTPdを立てて運用 ▪ spofになるので止めたい ◦
NICTのNTPを使ったら精度があがった ▪ ありがとうNICT!
起こったトラブルの話 • Dockerとpodmanが何故か混在した話 ◦ おそらくインストールミスでDockerとpodmanがノード で混在 ◦ podman消す && Dockerインストール
◦ → OSDとmonが自動で再展開されない ◦ →手動でreapplyして解決
起こったトラブルの話 • 本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話 ◦ Cephのper OSD PGが2^nを超えるとPGサイズを細分化し てリバランス ◦
→本番中に起こったらSlow OPsになりそう ◦ →今朝気づいた運営委員が事前に細分化
起こったトラブルの話 • ioDriveが認識されない • 時刻の精度を高めないといけない話 • OSDがメモリを食ってwireguardサーバーが落ちた話 • Dockerとpodmanが何故か混在した話 •
本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話
ご静聴ありがとうございました 質問などあればZoomで話しかけてください! もしくはTwitter (@onokatio_) まで