Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アプリのコンテナ化と排他制御 ~ データ 破壊 だ ヨ 全員集合
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Satoru Takeuchi
PRO
November 30, 2020
Technology
6
9.3k
アプリのコンテナ化と排他制御 ~ データ 破壊 だ ヨ 全員集合
Kubernetes Meetup Tokyo #36のLT資料です。
https://k8sjp.connpass.com/event/196212/
Satoru Takeuchi
PRO
November 30, 2020
Tweet
Share
More Decks by Satoru Takeuchi
See All by Satoru Takeuchi
書籍執筆での生成AIの活用
sat
PRO
1
300
ChatGPTに従って体調管理2026
sat
PRO
0
150
eBPF
sat
PRO
1
110
waruiBPF
sat
PRO
0
110
eBPFとwaruiBPF
sat
PRO
5
3.9k
Pythonのコードの気になる行でスタックトレースを出す
sat
PRO
1
100
ソースコードを読むときの思考プロセスの例 ~markdownのレンダリング方法を知りたかった2 markdownパッケージ~
sat
PRO
0
200
様々なファイルシステム
sat
PRO
0
340
ソースを読む時の思考プロセスの例-MkDocs
sat
PRO
1
430
Other Decks in Technology
See All in Technology
ECS障害を例に学ぶ、インシデント対応に備えたAIエージェントの育て方 / How to develop AI agents for incident response with ECS outage
iselegant
4
460
AWS DevOps Agent x ECS on Fargate検証 / AWS DevOps Agent x ECS on Fargate
kinunori
2
250
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
360
今こそ学びたいKubernetesネットワーク ~CNIが繋ぐNWとプラットフォームの「フラッと」な対話
logica0419
5
540
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
1.4k
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
210
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
Context Engineeringの取り組み
nutslove
0
380
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.6k
22nd ACRi Webinar - NTT Kawahara-san's slide
nao_sumikawa
0
120
CDKで始めるTypeScript開発のススメ
tsukuboshi
1
580
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
280
A better future with KSS
kneath
240
18k
Visualization
eitanlees
150
17k
Tell your own story through comics
letsgokoyo
1
810
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
160
Paper Plane (Part 1)
katiecoart
PRO
0
4.3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.1k
Navigating Weather and Climate Data
rabernat
0
110
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
AI: The stuff that nobody shows you
jnunemaker
PRO
2
280
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Transcript
アプリのコンテナ化と排他制御 ~ データ破壊だヨ!全員集合 Nov 30, 2020 sat@サイボウズ 1
前置き ▌アプリのコンテナ化は罠だらけ ▌本セッションは排他制御にまつわる罠を紹介 ▌実例として最近検出したRook/Ceph(後述)の データ破壊問題を紹介 2
Cephとは ▌OSSの分散ストレージシステム ▌データはOSDという領域に保存 ⚫OSDはクラスタ内のディスク上に作成 ⚫Ceph-osdというdaemonがOSD上のデータを読み書き ▌各データは全OSDにおおむね均等に分散配置 3 node0 node1 HDD
HDD HDD HDD OSD OSD OSD OSD
データ書き込み時の挙動 4 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data0
データ書き込み時の挙動 5 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data1 data0
データ書き込み時の挙動 6 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data1 data2 data0
データ書き込み時の挙動 7 node0 node1 Cephクライアント HDD HDD HDD HDD OSD
OSD OSD OSD data1 data2 data0 data3
Rookとは ▌K8s上で動作するCephのオーケストレーション ▌1つのOSDに対して1つPodが存在 8 node OSD Pod OSD Pod HDD
HDD OSD OSD ceph-osd ceph-osd 操作 操作
OSD Podの管理方法 ▌諸事情によりStatefulSetではなくDeploymentsを使用 ▌ceph-osdには二重起動を避ける仕組みが存在 ⚫/var/lib/ceph/osd/ceph-<OSD ID>以下のファイルでロック 9 HDD OSD ceph-osd
A ceph-osd B ロック ceph-osd Aにロックを取られているのでアクセス不可
OSDのdeployment 10 … containers: … command: - ceph-osd volumeMounts: -
mountPath: /var/lib/ceph/osd/ceph-0 name: set1-data-0-xfvdg-bridge subPath: ceph-0 …
OSDのdeployment 11 … containers: … command: - ceph-osd volumeMounts: -
mountPath: /var/lib/ceph/osd/ceph-0 name: set1-data-0-xfvdg-bridge subPath: ceph-0 … volumes: … - emptyDir: medium: Memory name: set1-data-0-xfvdg-bridge … コンテナごとに別々の ロックファイルを作るよ!
OSDのdeployment 12 … containers: … command: - ceph-osd volumeMounts: -
mountPath: /var/lib/ceph/osd/ceph-0 name: set1-data-0-xfvdg-bridge subPath: ceph-0 … volumes: … - emptyDir: medium: Memory name: set1-data-0-xfvdg-bridge … もしOSD Podが二重起動すると OSDがブッ壊れるよ!
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 13 OSD Pod A HDD
OSD ceph-osd ロック A
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 2. OSD Pod Aがeviction対象になり”Terminating”に。Ceph-osdはまだ動作中 14
OSD Pod A HDD OSD ceph-osd ロック A Terminating
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 2. OSD Pod Aがeviction対象になり”Terminating”に。Ceph-osdはまだ動作中 3.
新しいOSD Pod Bが同じノードにスケジュールされる 15 OSD Pod A HDD OSD ceph-osd ロック A OSD Pod B ceph-osd Terminating
問題が発生するシナリオの例 1. OSD Pod AがOSDを操作 2. OSD Pod Aがeviction対象になり”Terminating”に。Ceph-osdはまだ動作中 3.
新しいOSD Pod Bが同じノードにスケジュールされる 4. 2つのceph-osdが同じOSDを操作、OSDが壊れる ⚫ それぞれ別ファイルをロックしているので排他制御は機能しない 16 OSD Pod A HDD OSD ceph-osd ロック A OSD Pod B ceph-osd Terminating ロック B
検出経緯 1. OSD Podが存在するノードが慢性的なメモリ不足になっていた 17 node プロセス プロセス プロセス HDD
OSD Ceph-osd メモリが足りませんよ
検出経緯 1. OSD Podが存在するノードが慢性的なメモリ不足になっていた 2. 偶然前述の問題の再現試験のような状況になった ⚫ OOM killerによるプロセスの殺戮 ⚫
Kubeletによるプロセスの再生成 ⚫ メモリ不足によるPod eviction 18 node プロセス OOM Killer なかなかメモリが空かないなあ 殺戮 プロセス プロセス Podをスケジュールしなきゃ & 追い出さなきゃ 再生成 kubelet HDD OSD Ceph-osd
検出経緯 1. OSD Podが存在するノードが慢性的なメモリ不足になっていた 2. 偶然前述の問題の再現試験のような状況になった ⚫ OOM killerによるプロセスの殺戮 ⚫
Kubeletによるプロセスの再生成 ⚫ メモリ不足によるPod eviction 3. OSD Podが二重起動。死 19 node プロセス OOM Killer なかなかメモリが空かないなあ 殺戮 プロセス プロセス 再生成 kubelet HDD OSD Ceph-osd Ceph-osd Podをスケジュールしなきゃ & 追い出さなきゃ
検出してから現在までの流れ 1. CephコミュニティとRookコミュニティに報告 ⚫https://tracker.ceph.com/issues/48036 ⚫https://github.com/rook/rook/issues/6530 2. OSDのログから複数ceph-osdの動作を検出 3. Rookで問題が起きうることを確認 4.
現在はRookの修正検討中 20
まとめ ▌StatefulワークロードにはなるべくStatefulSetを使う ▌アプリのコンテナ化ではロックファイルの共有忘れに注意 ⚫ステートレスワークロードでも起こりうる ▌Rookの問題は今後修正予定 ▌OOM killerは優秀なデバッグツール 21