Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ICTSC2020 Ceph
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
onokatio
March 06, 2021
Technology
270
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ICTSC2020 Ceph
ICTSC2020 LT会で話したCephの話です
onokatio
March 06, 2021
Other Decks in Technology
See All in Technology
iOS アプリの「これって不具合ですか?」を AI に調べてもらう
miichan
0
140
GitHub Copilot app最速の発信の裏側
tomokusaba
1
260
ぼっちではじめた登壇が「51名」「241件」の発信に化けた
subroh0508
1
310
Deep Data Security 機能解説
oracle4engineer
PRO
2
120
「ビジネスがわかるエンジニア」とは何か?
ryooob
0
300
AIのReact習熟度を測る
uhyo
2
680
感情と身体を置き去りにしない、エンジニアの生きのこり方 ──いまから、ここから「自分の状態」を扱うという選択
saorimurooka
0
340
WebGIS AI Agentの紹介
_shimizu
0
560
水を運ぶ人としてのリーダーシップ
izumii19
4
990
Oracle Cloud Infrastructure:2026年6月度サービス・アップデート
oracle4engineer
PRO
0
300
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2026
yuya4
0
160
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
4
770
Featured
See All Featured
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
210
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
870
GitHub's CSS Performance
jonrohan
1033
470k
Side Projects
sachag
455
43k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.5k
Producing Creativity
orderedlist
PRO
348
40k
The Curse of the Amulet
leimatthew05
2
13k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
The browser strikes back
jonoalderson
0
1.3k
Done Done
chrislema
186
16k
Transcript
Cephの話 おのかちお
ぼく • おのかちお • 今日のSELinux問題を作った人です ◦ 前半ドタバタしてごめん… :pray: • インフラチームでストレージ周りやってました
注意 このCephは、監視基盤のCeph(Rook)とは別のクラスタです
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
以前のストレージ構成
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
Cephとは • 分散ストレージ • レプリカの話 • SPOFが居ない • OSDの自動認識 •
リバランス • S3/NFS/CephFS/RBDのインターフェイス
Cephとは - 分散ストレージ • データが分散される ◦ (機材があれば)いくらでもスケールできる • データが複製される ◦
どこかで壊れるor無くなってもデータが消えくい • 単一障害点をなくしやすい ◦ コントロールプレーンもデータプレーンも
Cephとは - レプリカの話 • レプリカ = 重複度 • レプリカサイズ3ならデータが3重に保存される ◦
ただし使用ストレージ容量も3倍 ◦ 書き込み実質速度は3倍 ◦ (今回はWritebackなので実質1倍)
Cephとは - SPOFが居ない • Cephは、Single Point Of Failure(単一障害点)ができにくい仕組 みになっています。 ◦
データプレーン: レプリカ ◦ コントロールプレーン: CRUSHアルゴリズム
Cephとは - 物理ディスクの自動認識 • Cephを構成するサーバーに新しいディスクが挿入される ↓ • 全自動で初期化・Cephへ追加
Cephとは - リバランス • データが増える or 物理ディスクが増える ↓ • 再配置・細分化
Cephとは - インターフェイス • NFS • S3 • CephFS •
RBD (Rados Block Device)
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
今回のCephの構成と容量の話 • コントロールプレーン: 6ノード • データプレーン: 6ノード ◦ SSD x6
◦ HDD x3 × 4 × 2 × 2
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
ブロックストレージをCephに置く話 • Cephの速度計測会 • humstackがブロックストレージをCephRBDに置く • ところで トラコンのVMの数について
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会
Cephの速度計測会 (BS展開時)
Cephの速度計測会 (VM起動時)
Cephの速度計測会 (Ceph pool)
humstackがBSをCeph RBDに置く • humstack(仮想化基盤) がCephにブロックストレージを置ける ように改良 by t-inagaki ↓ •
結果的に一つのVM作成・起動が数分程度に! ◦ コンピュートノード間のコピーが要らなくなった ◦ ただしレプリカ=1なので、分散されているだけで耐障害性 の旨みはない
ところで トラコンのVMの数について • 総VM数: 20~30台程度 • チーム数: 22 • 1VM
5GBぐらい 20 〜 30 * 22 *5 = 2 〜 3TB → レプリカサイズを3にすると、9TB超になる → SSD 6TBを超えてしまう
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
Cephのsnapshotの話 • Ceph RBDには、既存のオブジェクトをベースに別のオブジェ クトを展開する機能がある • レイヤーとして、ベースと差分を分けられる • VMの差分のみ保存され、各ストレージの共通部分は一つのブ ロックストレージに!
• 展開は爆速・実際に書き込むまで使用容量ゼロ • イメージとしてはDockerのoverlayfs
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
話すこと • 以前のストレージ構成 • Cephとは • 今回のCephの構成と容量の話 • ブロックストレージをCephに置く話 •
Cephのsnapshotの話 • 起こったトラブルの話
起こったトラブルの話 • ioDriveが認識されない • 時刻の精度を高めないといけない話 • OSDがメモリを食ってwireguardサーバーが落ちた話 • Dockerとpodmanが何故か混在した話 •
本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話
起こったトラブルの話 • ioDriveが認識されない • SSDのドライバがカスタムモジュール ◦ LV metadより先に読み込まれると、CephがLVMを認識 できない ◦
LV metadを無効化し、イベント的にdevice mapperを 認識するようにした
起こったトラブルの話 • 時刻の精度を高めないといけない話 • Cephは時刻の精度が0.05s以下でないとWARNを出す ◦ 最初はNTPdを立てて運用 ▪ spofになるので止めたい ◦
NICTのNTPを使ったら精度があがった ▪ ありがとうNICT!
起こったトラブルの話 • Dockerとpodmanが何故か混在した話 ◦ おそらくインストールミスでDockerとpodmanがノード で混在 ◦ podman消す && Dockerインストール
◦ → OSDとmonが自動で再展開されない ◦ →手動でreapplyして解決
起こったトラブルの話 • 本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話 ◦ Cephのper OSD PGが2^nを超えるとPGサイズを細分化し てリバランス ◦
→本番中に起こったらSlow OPsになりそう ◦ →今朝気づいた運営委員が事前に細分化
起こったトラブルの話 • ioDriveが認識されない • 時刻の精度を高めないといけない話 • OSDがメモリを食ってwireguardサーバーが落ちた話 • Dockerとpodmanが何故か混在した話 •
本番の日の朝にPGの数がオートスケールされることがわかった ので先にPGの数を増やした話
ご静聴ありがとうございました 質問などあればZoomで話しかけてください! もしくはTwitter (@onokatio_) まで