現場で使えるSRE / How to Survive as The First SRE

kurashiruの軌跡 SREガイドライン 1人目のSRE 信頼性を高める現場で使える Site Reliability Engineering

プロの料理人（８年）タコライス研究家宇宙兄弟好き SRE and データ可視化推進室 Fukao Moto 深尾もとのぶ

学生時代にアルバイトしていた地元岐阜のピッツェリアへ就職連日1時間待ちの行列未経験でプログラマになる半年後に行った現場が Linuxファイルシステム開発 29歳でフリーランスSIerになる社員5000人規模のグローバル企業でAIX設計・運用ベンチャーに憧れ
35歳で拠点を東京に移す AWS RedshiftでDMP構築

2016年12月レシピ動画サービス「クラシル」を運営する delyに1人目のSRE としてジョイン

リリースから１年7ヶ月で 1000万DL達成 2016年5月 2018年全国TVCM開始リリース 2017年 1000万突破ダウ
ンロ l ド数レシピ動画数世界一某TV番組で紹介 Webダウンここでジョイン

成長期成熟期衰退期プロダクトライフサイクル導入期 now? join 2016年5月

プロダクトライフサイクル導入期成長期成熟期衰退期インフラ構築モニタリング負荷対策 CI/Pipeline リプレイス
コスト削減セキュリティバックアップアラート設定 DevOps キャパシティランニングドキュメンテーション障害対応カイゼンポストモーテム効率化 join now?

1 人目の S R E として
k u r a s h i r u の成長をどのように支えてきたか？

kurashiruの軌跡 SREガイドライン 1人目のSRE 信頼性を高める現場で使える Site Reliability Engineering

プロダクト開発の不確実性に技術・設計面でどう対処するか？

プロダクトライフサイクル導入期成長期成熟期衰退期インフラ構築 join

スケーラビリティあと
はついてくる？とりあえず・・・

画像：Betsy Beyer他(2017) 「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」 (澤田武男ほか訳) オライリージャパン

プロダクト開発キャパシティプランニングテスト、リリース手順ポストモーテム、根本原因分析インシデント対応モニタリングサービスの信頼性の階層参考文献：Betsy Beyer他(2017)
「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」 (澤田武男ほか訳) オライリージャパン

「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」 (澤田武男ほか訳) オライリージャパン Scalability

スケーラビリティとは
？

Throughput Servers or Containers リソースを増やすほどスループットが上がる =スケーラビリティリソースを増やしてもスループットが上がらない =ボトルネック

ボトルネックを解消す
ればスケーラビリティを確保できる

ボトルネックを分類す
るための 3 つの質問

負荷をかけた時リソー
スに縛られているか？

どのリソースに縛られ
ているか？

O S の外側にボトルネ
ックがあるか？

負荷をかけた時リソースに縛られている？いない？どのリソースに縛られているか？いないいる CPU メモリディスクI/O
ネットワーク/リモート（その他のH/W）設定/ソフトウェア OSの外側にボトルネックがあるか？ボトルネックの５分類あるない

CPU メモリディスクI/O ネットワーク/リモート設定/ソフトウェアボトルネックの分類

CPU メモリディスクI/O ネットワーク/リモート設定/ソフトウェア現場で使える Site Reliability Engineering

C P U 使用率は概ね C
P U 負荷の参考になる

CPU負荷を見分ける • CPUに空きがあってもiowaitが上がればidle が下がる（見た目のCPU使用率が上がる） • ロードアベレージはCPUの負荷でもI/Oの負荷でも上がる • topやsarコマンドのCPU使用率はコア数で割られるがロードアベレージはコア数で割られない
• user+sysが100%だと、I/O負荷があっても iowaitは上がらない参考Web：「マルチコア時代のロードアベレージの見方」http://d.hatena.ne.jp/naoya/20070518/1179492085 参照2018-6-24 「I/O負荷の正確な状況はiowaitでは分かりません」https://qiita.com/kunihirotanaka/items/a536ee35d589027e4a5a 参照2018-6-24

“ 推測するな、計測せ
よ ” 引用：安井真伸ほか(2008)「[24時間365日] サーバ/インフラを支える技術」技術評論社

メモリメモリが足りなくなると　・スワッピングによるディスクI/O 　・ページングのオーバーヘッド　・ファイルシステムキャッシュ不足　　　　　　　　　　　　　　　など同じファイルを何度も読み書きするサーバはファイルシステムキャッシュが有効的

CPUやメモリが足りない場合はスケールアップやスケールアウト！コードを見直す必要もあるけど短期的にはサーバを増やして対応費用対効果やフェーズ次第！！

従来の一般的なシステ
ムはディスク I / O がボトルネックになることが多い

ディスクI/O ３つの対応パターンより早いものを使う I/Oの量を減らす分散させる

Provisioned IOPS, SSD, NVMe 圧縮, キャッシュ, アルゴリズム、データ構造スケールアウト、LVM、RAID0 代表的な対応策より早いものを使う
I/Oの量を減らす分散させる

CDN Nginx memcached kurashiruの３つのキャッシュ

1 0 年前は 1 0 万倍あ
ったディスクとメモリの速度差はほとんどなくなってきている参考文献：伊藤直也ほか(2010) 「Web開発者のための大規模サービス技術入門」技術評論社

S S D や N V M e の大
容量化、低価格化によって今後どう変わるのか？

根本原因分析にはサー
ビスごとのレイテンシや D B のスロークエリが有用

「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」 (澤田武男ほか訳) オライリージャパン

4大シグナルレイテンシトラフィックエラーサチュレーション参考文献：Betsy Beyer他(2017) 「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」
(澤田武男ほか訳) オライリージャパン

O S やミドルウェア実
行環境やアプリにボトルネックが隠れている

設定/ソフトウェア TCPポート数バッファサイズコネクション数スレッド数キュー、バックログの上限など

設定/ソフトウェア隠れたボトルネックを探すのは困難いろんな負荷をかけてみると　同時リクエスト数　最大サイズ、合計サイズ解決の糸口が見つかるかも・・・

事例：ボトルネック解消 abコマンドで負荷テスト Unicornは１プロセスで１リクエストずつ捌く CPUもメモリ使用率も低いのに500エラーメモリを使い切るように worker_processesを5から24に増やす 1000リクエスト以上並列に送ると500エラー CPU使用率が50%台まで上がる

事例：ボトルネック解消 NginxとUnicornの間のUNIXソケット backlog: 1024 (default) unicorn.sockのbacklog=8192 CPU使用率が100% 負荷に合わせてスケールアウトスケーラビリティを確保 1000リクエスト以上同時に送ると500エラー
参考：「１台あたり10,000人を捌くRails製Webサーバのチューニング」http://tech.dely.jp/entry/2017/06/21/191832 参照2018-6-24

ボトルネックを１つず
つ潰してスケーラビリティを確保

スケールしにくいサー
バ

RDBMSはシングルマスタが主流最近はCloud Spannerや AuroraのMulti Masterなど色々あるけど基本はCAP定理 DBのスケーラビリティ

Query Time Time & Data データが増えるほどクエリの実行時間が長くなる =プロダクトがスケールできないデータが増えてもクエリの実行時間が増えない
=プロダクトのスケーラビリティ確保

RDBMSの対策 ( ディスク I / O の
対応策と同じ）より早いものを使う I/Oの量を減らす分散させる

オンメモリ、Provisioned IOPS 圧縮、インデックス、パーティショニング水平分割、垂直分割 DBのI/O対策より早いものを使う I/Oの量を減らす分散させる参考Web：「ソーシャルゲーム案件におけるDB分割のPHP実装」 https://www.slideshare.net/infinite_loop/socialgame-db-slice
参照2018-6-24

DBの分割はアプリ側の対応が必要適切なキャパシティプランニングサービスが最速でグロースしても耐えうるサイジングキャパシティプランニング

・信頼性を高めるには
スケーラビリティを確保する・根本原因分析をしてボトルネックの解消・成長に耐えうるキャパシティプランニング現場で使える Site Reliability Engineering

kurashiruの軌跡 SREガイドライン信頼性を高める現場で使える Site Reliability Engineering 1人目のSRE

プロダクト開発の不確実性に運用面でどう対処するか？

運用における S R E の
課題

リソースは有限だが不
確実性や信頼性には際限がない

Reliability 改善コスト改善するほど信頼性は高まるけど終わりがないしかも効果はだんだん限定的になる

“ ある一線を越えると
、信頼性を向上させることはサービスにとって、むしろマイナスになることがわかっています。 ” 参考文献：Betsy Beyer他(2017) 「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」 (澤田武男ほか訳) オライリージャパン

際限がないなら際限を
決める

サービスレベル目標 (
S L O )

SLOの運用 SLO SLI 1st week 2nd week 3rd week 4th
week API稼働率 99.99% 100% 100% 100% 100% APIレイテンシ(95p) 500msec 0 1 0 0 検索レイテンシ(99p) 300msec 1 3 2 0 ログ欠損率 1%/day 0 1 0 0

SLOの決め方 • ユーザー体験を守る • SLIの取得にコストをかけ過ぎない • 必要なサービスだけ • 定期的に見直す

SLOの運用 SLO SLI 1st week 2nd week 3rd week 4th
week API稼働率 99.99% 100% 100% 100% 100% APIレイテンシ(95p) 500msec 0 1 0 0 検索レイテンシ(99p) 300msec 1 3 2 0 ログ欠損率 1%/day 0 1 0 0 課題達成達成

アラート対応アラートごとに調査、対策 SLOに影響がなければ対応不要ただし将来影響がありそうなら調査 B e f o r e
A f t e r

評価インシデント件数、アラート件数 SLOを達成したかどうか＝減点方式＝目標達成方式 A f t e r
B e f o r e

改善(Issue) B e f o r e 守りのタスクがエンドレス SLOを達成して攻めのタスクをやる
A f t e r

攻め守り信頼性向上技術的負債の返済やらなければいけないことグロース施策技術的挑戦やりたいこと
トイル機能追加分け方は人によって異なる

人によって異なる攻めと守りのバランスを各自でコントロールするためバックログやカンバンといったアジャイル開発のFWを応用攻めと守りのバランス

ToDo Issue Backlog Doing Done Issue Issue Issue Issue Issue
Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue

SREのタスク(ISSUE)はとりあえず Backlogに入れる毎週の定例ミーティングで優先順位の高いISSUEのステータスをToDoに変える SRE ISSUE

ToDo Backlog Doing Done Issue Issue Issue Issue Issue Issue
Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue

担当は基本的に決めないので自分からISSUEを拾う(Doing) ToDoを優先しつつ Backlogから拾っても良い自分から拾うことで自分のタスクをコントロールしやすい SRE ISSUE

ToDo Backlog Doing Done Issue Issue Issue Issue Issue Issue
Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue Issue

SREのISSUEは背景(Why)とスコープ(What)を決めて、担当(Who)や期限 (When), 方法(How)は決めない背景を共有していれば優先順位や期限は各自が判断できる（契約案件など期限つきのISSUEもある） SRE ISSUE

やり方(How)は担当者が決める手段の目的化を防ぎ生産性とモチベーションが上がる自由に行動するためにはガイドラインが必要 SRE ISSUE

S R E ガイドライン

SREガイドラインとは SREや他のエンジニアが、自由に行動するために、守るべき基準を決めたもの例：EC2サーバはタグで管理 (project, environment, roleは必須)

SREガイドラインサービスレベル目標(SLO) SREオンボーディング構成管理、タスク管理リスクコントロールインシデント対応、イベント対応ドキュメント管理

・ S L O でスコープを
決める・バックログやカンバンを使って　優先度の高いタスクをこなす・ S R E ガイドラインによって　主体的に行動現場で使える Site Reliability Engineering

kurashiruの軌跡 SREガイドライン信頼性を高める現場で使える Site Reliability Engineering 1人目のSRE

W h a t S R E I s

S R E には専門スキル
が必要？

インフラエンジニアと
S R E

D e v O p s と S R E

プロダクトライフサイクル導入期成長期成熟期衰退期インフラ構築モニタリング負荷対策 CI/Pipeline リプレイス
コスト削減セキュリティバックアップアラート設定 DevOps キャパシティランニングドキュメンテーション障害対応カイゼンポストモーテム効率化

1 人目の S R E

“ 私たちは、 M I T か
ら出向してアポロ計画で働いたマーガレット・ハミルトンこそが最初の S R E としてのあらゆる重要な特性を備えた人物だと考えます。 ” 引用：Betsy Beyer他(2017) 「SRE サイトリライアビリティエンジニアリング Googleの信頼性を支えるエンジニアリングチーム」 (澤田武男ほか訳) オライリージャパン

Margaret Hamilton 画像引用：https://ja.wikipedia.org/wiki/マーガレット・ハミルトン_(科学者) 参照2018-6-24

なぜ彼女が最初の S R
E だと考えられているのか？

“ 宇宙飛行士だって人
間だ間違いを犯しうるのではないか ” “ 自分たちプログラマーも間違いを犯しうるのではないか ” 参考文献：小野雅裕(2018) 「宇宙に命はあるのか人類が旅した一千億分の八」鴎来堂

月面着陸の誘導コンピュータに忍び込ませたプログラム何らかの原因でコンピュータがフリーズしそうになったら、生死に関わるプログラムだけを自動で再起動しアラームを出すその際のステータスコード「1202」アラーム1202 参考文献：小野雅裕(2018) 「宇宙に命はあるのか人類が旅した一千億分の八」
鴎来堂

アラーム 1 2 0 2 がな
かったらアポロ 1 1 号は月面に降りられなかった

誘導プログラムの開発
が目的だったらアラーム 1 2 0 2 は生まれない

目的手段人類を月に送ること月面着陸誘導プログラム

S R E にとって重要な
のは専門スキルより目的と主体性

アラーム 1 2 0 2 は i
f 文１つでもできる ! ?

W h a t S R E I s

・目的を達成するため
に主体性があれば必ずしも高度なスキルは必要ではない・アラーム 1 2 0 2 を作るためには多少のエンジニアリングのスキルは必要現場で使える Site Reliability Engineering

現場で使えるSRE / How to Survive as The First SRE

現場で使えるSRE / How to Survive as The First SRE

More Decks by Fukao Moto

Other Decks in Technology

Featured

Transcript