Upgrade to Pro — share decks privately, control downloads, hide ads and more …

30分でわかるシステム運用アンチパターン / Operations Anti Patterns in 30 minutes

30分でわかるシステム運用アンチパターン / Operations Anti Patterns in 30 minutes

「システム運用アンチパターン - Forkwell Library #4」でお話しした際の資料となります。
https://forkwell.connpass.com/event/256481/

動画はこちら。
https://youtu.be/hQAeMgXsZWc

Yuichi Tanaka

August 22, 2022
Tweet

More Decks by Yuichi Tanaka

Other Decks in Programming

Transcript

  1. • 2022/04、オライリー・ジャパンより刊行 • “Operations Anti-Patterns: DevOps Solutions” Jeffery D. Smith著

    (2020/10) • 運用や開発の一般のエンジニアや チームリーダーがDevOpsによる変革を起こ すための手助け • 11個のアンチパターンを紹介 ◦ ストーリー ◦ アンチパターンの説明 ◦ 解決策
  2. 1. パターナリスト症候群 2. 盲目状態での運用 3. 情報ではなくデータ 4. 最後の味付けとしての品質 5. アラート疲れ

    6. 空の道具箱 7. 業務時間外のデプロイ 8. せっかくのインシデントを無駄にする 9. 情報の溜め込み 10. 命じられた文化 11. 多すぎる尺度
  3. 1. パターナリスト症候群 2. 盲目状態での運用 3. 情報ではなくデータ 4. 最後の味付けとしての品質 5. アラート疲れ

    6. 空の道具箱 7. 業務時間外のデプロイ 8. せっかくのインシデントを無駄にする 9. 情報の溜め込み 10. 命じられた文化 11. 多すぎる尺度
  4. 自動化の考慮事項 承認プロセス • 何をチェックするか ロギング • 依頼・承認・実行・結果をどこに記録するか • 社内のイシュー管理ツールに集約するのがおすすめ 通知

    • 処理が実行されたことをどこで誰に通知するか • 通知先の管理コストをいかに減らすかが大事 • 既存のシステム(オンコールシステムとか)があればそれを活用 エラー処理 • どの程度まで自動復旧を行うか • 自動復旧よりもエラーを出して人間に判断してもらうので十分な ケースも多い
  5. 良いアラート • 行動可能である ◦ システムメトリクスによるアラートは行動可能でない 場合が多い ◦ 受け取った時に取るべき手順(runbook) ◦ なぜ通知する必要のあるアラートなのか

    • タイムリーである ◦ 待てば解消されるかもしれない事象をアラートする のはやめる • 適切に優先順位づけされている ◦ 全てのアラートが誰かを呼び出す必要はない