Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE 本 輪読会 #1
Search
Yusuke Matsuura
September 26, 2017
Technology
1k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRE 本 輪読会 #1
13章:緊急対応
14章:インシデント管理
Yusuke Matsuura
September 26, 2017
More Decks by Yusuke Matsuura
See All by Yusuke Matsuura
SRE Activities at Nulab
matsuzj
0
180
WordPress を Trellis で管理した話
matsuzj
0
930
サーバ構成管理について
matsuzj
0
170
MySQL 5.1 から Aurora への移行
matsuzj
0
150
Other Decks in Technology
See All in Technology
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
870
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
170
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.8k
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
150
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
180
Ruby::Boxでできること、Refinementsでできること
joker1007
3
410
やさしいA2A入門
minorun365
PRO
7
1.1k
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
7
4.4k
AI Testing Talks: Challenges of Applying AI in Software Testing: From Hype to Practical Use
exactpro
PRO
1
140
LLMと共に進化するプロセスを目指して
ymatsuwitter
12
3.7k
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
970
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
300
Featured
See All Featured
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
GitHub's CSS Performance
jonrohan
1033
470k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
240
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
For a Future-Friendly Web
brad_frost
183
10k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Transcript
SRE 本 本 輪読会 輪読会 #1 - Title SRE 本
本 輪読会 輪読会 #1 Yusuke Matsuura - Nulab Inc. Sep 25, 2017 19:00 ~ 21:00 - 13章:緊急対応 - 14章:インシデント管理
SRE 本 本 輪読会 輪読会 #1 - 自己紹介 自己紹介 自己紹介
- Yusuke Matsuura @matsuzj - Nulab Inc. - Site Reliability Engineer @Backlog - 趣味は登山・キャンプ - Job - Web サービスの開発/運用を始めて11年ぐらい経ちます - アプリケーションエンジニアからインフラ方面へ - 現在は運用・改善・トラブルシュート等 - Team - 2015年7月から Nulab のインフラ担当としてジョイン - 2016年9月から SRE チームを2名で発足 - 2017年8月から SREメンバーが追加されて3名体制へ
SRE 本 本 輪読会 輪読会 #1 - 目的 目的 開催の目的
自社でサービスの運用を担当しているが、客観的に見た 場合にちゃんと運用できているのだろうか? もっと改善できるところはあるのではないだろうか? そんな不安が常にあります。 実際にサービスをどう運用しているのか参加者同士で ディスカッションし、お互いのサービスをよくしていく そんな会にしたいです。
SRE 本 本 輪読会 輪読会 #1 - アジェンダ アジェンダ アジェンダ
1. 13章 : 緊急対応 2. 14章 : インシデント管理 3. Backlog の稼働状況 4. Backlog での緊急対応方法 5. Backlog でのインシデント管理
SRE 本 本 輪読会 輪読会 #1 - 進め方 進め方 進め方
本の内容を抜粋した後に、ヌーラボの Backlog チームで のケースを公開しています。 途中で気になる点があれば、話の途中でも止めてもらっ て構いません。 気になった内容の議論をしましょう
SRE 本 本 輪読会 輪読会 #1 - 1. 13章 章
: 緊急対応 緊急対応 1. 13章 : 緊急対応
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
前提 前提1 緊急対応 : 前提 - 緊急事態に対して初めから上手く対応できる人はほとん どいない - 適切な対応を行うには、準備に加えて定期的で適切なハ ンズオントレーニングが必要になる - 綿密なトレーニングとテストのプロセスを確立しメンテ ナンスしていくには、経営層や管理職の理解に加えてス タッフが十分に注意を払うことが必要になる
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
前提 前提2 緊急対応 : 前提 - これらの要素がすべて揃っていなければ、システム、プ ロセス、そして人々が間違いなく緊急事態に効率的に対 応できるよう、予算、時間、エネルギーを費やし、場合 によっては稼働時間さえも犠牲にするという判断をチー ムが下せる環境を育むことはできない
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
対応時 対応時1 緊急対応 : 対応時1 - 担当者はパニックを起こしてはいけない - 解決策を思いつかないのであれば、チームメイトを巻き 込み、助けを求め、自分にできることはなんでも素早く やってしまう - 障害発生時にブレインストーミングを実施している - ブレインストーミングの4原則 - 判断・結論を出さない(結論厳禁) - 粗野な考えを歓迎する(自由奔放) - 量を重視する(質より量) - アイディアを結合し発展させる(結合改善)
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
予防 予防1 緊急対応 : 予防 - Google では予防的なアプローチを採用している。シス テムに障害を起こさせて、その障害の様子を観察し、そ して信頼性を向上し障害が再発しないようにするための 改善を行う - 大規模なテストを実施する際には、ロールバックの手順 の徹底的なテストが必須になっている。 - 振り返りを実施し適切にエスカレーションした後、イン シデント管理の手順の更新を行っている
SRE 本 本 輪読会 輪読会 #1 - 2. 14章 章
: インシデント管理 インシデント管理 2. 14章 : インシデント管理
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
前提 前提 インシデント管理 : 前提 - Google のインシデント管理のシステムは Incident Management System に基いている - インシデントに関わる全員が自分の役割を知り、他の誰 かの領域に踏み込んでしまわないようにすることは重要 - 責任分担をはっきりと分けることによって、一人一人が 自律的に動けるようになります。 - 自分の負荷が大きいのであれば、その人物は計画担当の リーダーにスタッフの追加を求め、その作業を他のメン バーに任せる
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( インシデント指揮者 インシデント指揮者 ) インシデント管理 : 役割 ( インシデント指揮者 ) - インシデント指揮者 - インシデント指揮者は、インシデントに関する 高レベルの状況を把握する。 - インシデント指揮者は、インシデントレスポンス チームを構成し、必要性と優先順位に応じて 責任を割り当てる - 指揮者は移譲していないすべての役割を受け持つ
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( 実行作業 実行作業 ) インシデント管理 : 役割 ( 実行作業 ) - 実行作業 - 実行作業担当のリーダーはインシデント指揮者と 共に働く - インシデントの発生中は、システムを修正するのは 実行作業チームのみが行う
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( コミュニケーション コミュニケーション ) インシデント管理 : 役割 ( コミュニケーション ) - コミュニケーション - コミュニケーション担当は、インシデント レスポンスチームの公の顔である - 役割はインシデントレスポンスチームと ステークホルダーに対し定期的に最新情報を 発行すること - インシデントに関するドキュメントを正確かつ 最新の状態に保つことを受け持つ場合もある
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( 計画 計画 ) インシデント管理 : 役割 ( 計画 ) - 計画 - 計画担当者は、長期的な課題を扱うことで 実行チームを支援している - バグの登録・夕食の発注・引き継ぎの調整・ インシデント解決後にシステムの状態を 元に戻せるように記録する
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
やり方 やり方 インシデント管理 : やり方 - インシデント宣言すべき条件 - その問題を修復するために別のチームに関わって 貰う必要があるか? - サービス障害がユーザーに影響しているか? - 集中して分析を1時間行っても、まだその問題は 解決していないか? - どこへいけばインシデント指揮者とやりとりが できるか理解しておく必要がある - インシデント指揮者の最も重要な責務は、 インシデントのドキュメントを常に最新にする
SRE 本 本 輪読会 輪読会 #1 - 3. Backlog の稼働状況
の稼働状況 3. Backlog の稼働状況
SRE 本 本 輪読会 輪読会 #1 - Backlog の稼働状況 の稼働状況
: DBの のCPU使用率 使用率 Backlog の稼働状況 : DBのCPU使用率
SRE 本 本 輪読会 輪読会 #1 - Backlog の稼働状況 の稼働状況
: 特徴 特徴 Backlog の稼働状況 : 特徴 - 平日の8時から22時の時間帯がよく使われる - 休日はほぼ稼働しない
SRE 本 本 輪読会 輪読会 #1 - 4. Backlog での緊急対応方法
での緊急対応方法 4. Backlog での 緊急対応方法
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 監視概要 監視概要 Backlog の緊急対応 : 監視概要 仮想マシン ( AWS 提供 ) 外部ホスト OS ミドルウェア アプリケーション Cloudwatch mackerel サービス ( Backlog ) nagios 仮想マシン ( AWS 提供 ) OS ミドルウェア アプリケーション Cloudwatch mackerel
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 監視概要説明 監視概要説明 Backlog の緊急対応 : 緊急対応のケース - どういう経緯で緊急とみなすか? - Nagios のアラートを検知した場合 - Mackerel でクリティカルなアラートを検知した場合 - エゴサーチ ( Twitter ) - ヌーラボメンバーによる報告
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 通知チャネル 通知チャネル Backlog の緊急対応 : 通知チャネル Topic for Nagios Topic for Twitter Topic for Mackerel Meet for Emergency Topic for Emergency 各トピックの状況を みて緊急対応用のト ピックにポストする Nulabers - SRE/DEV - Support 緊急用のトピックに投稿された らすぐに反応し調査を開始する その際に Meet に接続し会話で きる状態にする Nulaber Customers サポートチームが障 害状況を顧客にアッ プデートする
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 良い点 良い点 Backlog の緊急対応 : 良い点 - 緊急対応に対する経営層・管理職の理解がある - ブレインストーミングが気軽にできている - 最速で障害に対応する基礎はある
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 問題点 問題点 Backlog の緊急対応 : 問題点 - 緊急対応のハンズオントレーニングは実施できていない - 対応する人のローテションは明確にはできておらず、特 定の人で行うケースがまだ多い - 予防的なアプローチはとれておらず、発生ベースで課題 を解決している
SRE 本 本 輪読会 輪読会 #1 - 5. Backlog でのインシデント管理
でのインシデント管理 5. Backlog での インシデント管理
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: フロー フロー Backlog でのインシデント管理 : フロー Meet for Emergency Topic for Emergency Typetalk のまとめ機能 を使い障害中のやりと りをまとめる Nulabers - SRE/DEV - Support 障害対応完了 障害の振り返りをオン ラインで実施 Typetalk から Backlog へ課題を作成し障害内 容・事後対応を記載す る Customers 障害報告書 Typetalk のやりとりか ら障害内容から障害報 告書を記載 障害の内容をステーク ホルダーに連絡する
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: まとめ機能 まとめ機能 Backlog でのインシデント管理 : まとめ機能
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: 良い点 良い点 Backlog でのインシデント管理方法 : 良い点 - 明確なインシデント管理方法のドキュメントはないがふ んわりロールわけするようになっている - 全体をみて状況を把握する人 調査状況がわからなければ催促 お客さんへの連絡がされてなければ催促 - 障害を調査する人 システムの問題を見る人 - アナウンスする人 お客さんへどう案内するか考える人
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: 悪い点 悪い点 Backlog でのインシデント管理方法 : 悪い点 - インシデント対応を行いながら、ルールを決めていった が、ルールの文書化はされていない - 各チームの役割がふんわりしていて、明確な役割分担に なっていないケースがある
SRE 本 本 輪読会 輪読会 #1 - 宣伝 宣伝 インフラエンジニア募集
https://nulab-inc.com/ja/about/careers/infrastructure-engineer/