$30 off During Our Annual Pro Sale. View Details »

SRE 本 輪読会 #1

SRE 本 輪読会 #1

13章:緊急対応
14章:インシデント管理

Yusuke Matsuura

September 26, 2017
Tweet

More Decks by Yusuke Matsuura

Other Decks in Technology

Transcript

  1. SRE 本 本 輪読会 輪読会 #1 - Title SRE 本

    本 輪読会 輪読会 #1 Yusuke Matsuura - Nulab Inc. Sep 25, 2017 19:00 ~ 21:00 - 13章:緊急対応 - 14章:インシデント管理
  2. SRE 本 本 輪読会 輪読会 #1 - 自己紹介 自己紹介 自己紹介

    - Yusuke Matsuura @matsuzj - Nulab Inc. - Site Reliability Engineer @Backlog - 趣味は登山・キャンプ - Job - Web サービスの開発/運用を始めて11年ぐらい経ちます - アプリケーションエンジニアからインフラ方面へ - 現在は運用・改善・トラブルシュート等 - Team - 2015年7月から Nulab のインフラ担当としてジョイン - 2016年9月から SRE チームを2名で発足 - 2017年8月から SREメンバーが追加されて3名体制へ
  3. SRE 本 本 輪読会 輪読会 #1 - 目的 目的 開催の目的

    自社でサービスの運用を担当しているが、客観的に見た 場合にちゃんと運用できているのだろうか? もっと改善できるところはあるのではないだろうか? そんな不安が常にあります。 実際にサービスをどう運用しているのか参加者同士で ディスカッションし、お互いのサービスをよくしていく そんな会にしたいです。
  4. SRE 本 本 輪読会 輪読会 #1 - アジェンダ アジェンダ アジェンダ

    1. 13章 : 緊急対応 2. 14章 : インシデント管理 3. Backlog の稼働状況 4. Backlog での緊急対応方法 5. Backlog でのインシデント管理
  5. SRE 本 本 輪読会 輪読会 #1 - 進め方 進め方 進め方

    本の内容を抜粋した後に、ヌーラボの Backlog チームで のケースを公開しています。 途中で気になる点があれば、話の途中でも止めてもらっ て構いません。 気になった内容の議論をしましょう
  6. SRE 本 本 輪読会 輪読会 #1 - 1. 13章 章

    : 緊急対応 緊急対応 1. 13章 : 緊急対応
  7. SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :

    前提 前提1 緊急対応 : 前提 - 緊急事態に対して初めから上手く対応できる人はほとん どいない - 適切な対応を行うには、準備に加えて定期的で適切なハ ンズオントレーニングが必要になる - 綿密なトレーニングとテストのプロセスを確立しメンテ ナンスしていくには、経営層や管理職の理解に加えてス タッフが十分に注意を払うことが必要になる
  8. SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :

    前提 前提2 緊急対応 : 前提 - これらの要素がすべて揃っていなければ、システム、プ ロセス、そして人々が間違いなく緊急事態に効率的に対 応できるよう、予算、時間、エネルギーを費やし、場合 によっては稼働時間さえも犠牲にするという判断をチー ムが下せる環境を育むことはできない
  9. SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :

    対応時 対応時1 緊急対応 : 対応時1 - 担当者はパニックを起こしてはいけない - 解決策を思いつかないのであれば、チームメイトを巻き 込み、助けを求め、自分にできることはなんでも素早く やってしまう - 障害発生時にブレインストーミングを実施している  - ブレインストーミングの4原則   - 判断・結論を出さない(結論厳禁)   - 粗野な考えを歓迎する(自由奔放)   - 量を重視する(質より量)   - アイディアを結合し発展させる(結合改善)
  10. SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :

    予防 予防1 緊急対応 : 予防 - Google では予防的なアプローチを採用している。シス テムに障害を起こさせて、その障害の様子を観察し、そ して信頼性を向上し障害が再発しないようにするための 改善を行う - 大規模なテストを実施する際には、ロールバックの手順 の徹底的なテストが必須になっている。 - 振り返りを実施し適切にエスカレーションした後、イン シデント管理の手順の更新を行っている
  11. SRE 本 本 輪読会 輪読会 #1 - 2. 14章 章

    : インシデント管理 インシデント管理 2. 14章 : インシデント管理
  12. SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :

    前提 前提 インシデント管理 : 前提 - Google のインシデント管理のシステムは Incident Management System に基いている - インシデントに関わる全員が自分の役割を知り、他の誰 かの領域に踏み込んでしまわないようにすることは重要 - 責任分担をはっきりと分けることによって、一人一人が 自律的に動けるようになります。 - 自分の負荷が大きいのであれば、その人物は計画担当の リーダーにスタッフの追加を求め、その作業を他のメン バーに任せる
  13. SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :

    役割 役割 ( インシデント指揮者 インシデント指揮者 ) インシデント管理 : 役割 ( インシデント指揮者 ) - インシデント指揮者  - インシデント指揮者は、インシデントに関する   高レベルの状況を把握する。  - インシデント指揮者は、インシデントレスポンス   チームを構成し、必要性と優先順位に応じて   責任を割り当てる  - 指揮者は移譲していないすべての役割を受け持つ
  14. SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :

    役割 役割 ( 実行作業 実行作業 ) インシデント管理 : 役割 ( 実行作業 ) - 実行作業  - 実行作業担当のリーダーはインシデント指揮者と   共に働く  - インシデントの発生中は、システムを修正するのは   実行作業チームのみが行う
  15. SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :

    役割 役割 ( コミュニケーション コミュニケーション ) インシデント管理 : 役割 ( コミュニケーション ) - コミュニケーション  - コミュニケーション担当は、インシデント   レスポンスチームの公の顔である  - 役割はインシデントレスポンスチームと   ステークホルダーに対し定期的に最新情報を   発行すること  - インシデントに関するドキュメントを正確かつ   最新の状態に保つことを受け持つ場合もある
  16. SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :

    役割 役割 ( 計画 計画 ) インシデント管理 : 役割 ( 計画 ) - 計画    - 計画担当者は、長期的な課題を扱うことで   実行チームを支援している  - バグの登録・夕食の発注・引き継ぎの調整・   インシデント解決後にシステムの状態を   元に戻せるように記録する
  17. SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :

    やり方 やり方 インシデント管理 : やり方 - インシデント宣言すべき条件  - その問題を修復するために別のチームに関わって   貰う必要があるか?  - サービス障害がユーザーに影響しているか?  - 集中して分析を1時間行っても、まだその問題は   解決していないか?    - どこへいけばインシデント指揮者とやりとりが   できるか理解しておく必要がある  - インシデント指揮者の最も重要な責務は、   インシデントのドキュメントを常に最新にする
  18. SRE 本 本 輪読会 輪読会 #1 - 3. Backlog の稼働状況

    の稼働状況 3. Backlog の稼働状況
  19. SRE 本 本 輪読会 輪読会 #1 - Backlog の稼働状況 の稼働状況

    : DBの のCPU使用率 使用率 Backlog の稼働状況 : DBのCPU使用率
  20. SRE 本 本 輪読会 輪読会 #1 - Backlog の稼働状況 の稼働状況

    : 特徴 特徴 Backlog の稼働状況 : 特徴 - 平日の8時から22時の時間帯がよく使われる - 休日はほぼ稼働しない
  21. SRE 本 本 輪読会 輪読会 #1 - 4. Backlog での緊急対応方法

    での緊急対応方法 4. Backlog での 緊急対応方法
  22. SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応

    : 監視概要 監視概要 Backlog の緊急対応 : 監視概要 仮想マシン ( AWS 提供 ) 外部ホスト OS ミドルウェア アプリケーション Cloudwatch mackerel サービス ( Backlog ) nagios 仮想マシン ( AWS 提供 ) OS ミドルウェア アプリケーション Cloudwatch mackerel
  23. SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応

    : 監視概要説明 監視概要説明 Backlog の緊急対応 : 緊急対応のケース - どういう経緯で緊急とみなすか?  - Nagios のアラートを検知した場合  - Mackerel でクリティカルなアラートを検知した場合  - エゴサーチ ( Twitter )  - ヌーラボメンバーによる報告
  24. SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応

    : 通知チャネル 通知チャネル Backlog の緊急対応 : 通知チャネル Topic for Nagios Topic for Twitter Topic for Mackerel Meet for Emergency Topic for Emergency 各トピックの状況を みて緊急対応用のト ピックにポストする Nulabers - SRE/DEV - Support 緊急用のトピックに投稿された らすぐに反応し調査を開始する その際に Meet に接続し会話で きる状態にする Nulaber Customers サポートチームが障 害状況を顧客にアッ プデートする
  25. SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応

    : 良い点 良い点 Backlog の緊急対応 : 良い点 - 緊急対応に対する経営層・管理職の理解がある - ブレインストーミングが気軽にできている - 最速で障害に対応する基礎はある
  26. SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応

    : 問題点 問題点 Backlog の緊急対応 : 問題点 - 緊急対応のハンズオントレーニングは実施できていない - 対応する人のローテションは明確にはできておらず、特 定の人で行うケースがまだ多い - 予防的なアプローチはとれておらず、発生ベースで課題 を解決している
  27. SRE 本 本 輪読会 輪読会 #1 - 5. Backlog でのインシデント管理

    でのインシデント管理 5. Backlog での インシデント管理
  28. SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理

    : フロー フロー Backlog でのインシデント管理 : フロー Meet for Emergency Topic for Emergency Typetalk のまとめ機能 を使い障害中のやりと りをまとめる Nulabers - SRE/DEV - Support 障害対応完了 障害の振り返りをオン ラインで実施 Typetalk から Backlog へ課題を作成し障害内 容・事後対応を記載す る Customers 障害報告書 Typetalk のやりとりか ら障害内容から障害報 告書を記載 障害の内容をステーク ホルダーに連絡する
  29. SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理

    : まとめ機能 まとめ機能 Backlog でのインシデント管理 : まとめ機能
  30. SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理

    : 良い点 良い点 Backlog でのインシデント管理方法 : 良い点 - 明確なインシデント管理方法のドキュメントはないがふ んわりロールわけするようになっている  - 全体をみて状況を把握する人   調査状況がわからなければ催促   お客さんへの連絡がされてなければ催促  - 障害を調査する人   システムの問題を見る人  - アナウンスする人   お客さんへどう案内するか考える人
  31. SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理

    : 悪い点 悪い点 Backlog でのインシデント管理方法 : 悪い点 - インシデント対応を行いながら、ルールを決めていった が、ルールの文書化はされていない - 各チームの役割がふんわりしていて、明確な役割分担に なっていないケースがある
  32. SRE 本 本 輪読会 輪読会 #1 - 宣伝 宣伝 インフラエンジニア募集

    https://nulab-inc.com/ja/about/careers/infrastructure-engineer/