Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE 本 輪読会 #1
Search
Yusuke Matsuura
September 26, 2017
Technology
1k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRE 本 輪読会 #1
13章:緊急対応
14章:インシデント管理
Yusuke Matsuura
September 26, 2017
More Decks by Yusuke Matsuura
See All by Yusuke Matsuura
SRE Activities at Nulab
matsuzj
0
180
WordPress を Trellis で管理した話
matsuzj
0
930
サーバ構成管理について
matsuzj
0
170
MySQL 5.1 から Aurora への移行
matsuzj
0
150
Other Decks in Technology
See All in Technology
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
52
58k
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
170
Agentic ERPをどう設計するか ー 受発注エージェントを動かす、現場の知見と設計思想ー
recerqainc
1
2k
ITエンジニアを取り巻く環境とキャリアパス / A career path for Japanese IT engineers
takatama
4
1.8k
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
1
1.1k
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
19
11k
Snowflakeと仲良くなる第一歩
coco_se
4
310
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
3
1.1k
AIにフローを作らせようとして挫折した話
hamatsutaichi
0
240
Mastering Ruby Box
tagomoris
3
150
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
120
タクシーアプリ『GO』の実践的データ活用
mot_techtalk
3
180
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
310
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
Evolving SEO for Evolving Search Engines
ryanjones
0
210
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
Writing Fast Ruby
sferik
630
63k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
Transcript
SRE 本 本 輪読会 輪読会 #1 - Title SRE 本
本 輪読会 輪読会 #1 Yusuke Matsuura - Nulab Inc. Sep 25, 2017 19:00 ~ 21:00 - 13章:緊急対応 - 14章:インシデント管理
SRE 本 本 輪読会 輪読会 #1 - 自己紹介 自己紹介 自己紹介
- Yusuke Matsuura @matsuzj - Nulab Inc. - Site Reliability Engineer @Backlog - 趣味は登山・キャンプ - Job - Web サービスの開発/運用を始めて11年ぐらい経ちます - アプリケーションエンジニアからインフラ方面へ - 現在は運用・改善・トラブルシュート等 - Team - 2015年7月から Nulab のインフラ担当としてジョイン - 2016年9月から SRE チームを2名で発足 - 2017年8月から SREメンバーが追加されて3名体制へ
SRE 本 本 輪読会 輪読会 #1 - 目的 目的 開催の目的
自社でサービスの運用を担当しているが、客観的に見た 場合にちゃんと運用できているのだろうか? もっと改善できるところはあるのではないだろうか? そんな不安が常にあります。 実際にサービスをどう運用しているのか参加者同士で ディスカッションし、お互いのサービスをよくしていく そんな会にしたいです。
SRE 本 本 輪読会 輪読会 #1 - アジェンダ アジェンダ アジェンダ
1. 13章 : 緊急対応 2. 14章 : インシデント管理 3. Backlog の稼働状況 4. Backlog での緊急対応方法 5. Backlog でのインシデント管理
SRE 本 本 輪読会 輪読会 #1 - 進め方 進め方 進め方
本の内容を抜粋した後に、ヌーラボの Backlog チームで のケースを公開しています。 途中で気になる点があれば、話の途中でも止めてもらっ て構いません。 気になった内容の議論をしましょう
SRE 本 本 輪読会 輪読会 #1 - 1. 13章 章
: 緊急対応 緊急対応 1. 13章 : 緊急対応
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
前提 前提1 緊急対応 : 前提 - 緊急事態に対して初めから上手く対応できる人はほとん どいない - 適切な対応を行うには、準備に加えて定期的で適切なハ ンズオントレーニングが必要になる - 綿密なトレーニングとテストのプロセスを確立しメンテ ナンスしていくには、経営層や管理職の理解に加えてス タッフが十分に注意を払うことが必要になる
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
前提 前提2 緊急対応 : 前提 - これらの要素がすべて揃っていなければ、システム、プ ロセス、そして人々が間違いなく緊急事態に効率的に対 応できるよう、予算、時間、エネルギーを費やし、場合 によっては稼働時間さえも犠牲にするという判断をチー ムが下せる環境を育むことはできない
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
対応時 対応時1 緊急対応 : 対応時1 - 担当者はパニックを起こしてはいけない - 解決策を思いつかないのであれば、チームメイトを巻き 込み、助けを求め、自分にできることはなんでも素早く やってしまう - 障害発生時にブレインストーミングを実施している - ブレインストーミングの4原則 - 判断・結論を出さない(結論厳禁) - 粗野な考えを歓迎する(自由奔放) - 量を重視する(質より量) - アイディアを結合し発展させる(結合改善)
SRE 本 本 輪読会 輪読会 #1 - 緊急対応 緊急対応 :
予防 予防1 緊急対応 : 予防 - Google では予防的なアプローチを採用している。シス テムに障害を起こさせて、その障害の様子を観察し、そ して信頼性を向上し障害が再発しないようにするための 改善を行う - 大規模なテストを実施する際には、ロールバックの手順 の徹底的なテストが必須になっている。 - 振り返りを実施し適切にエスカレーションした後、イン シデント管理の手順の更新を行っている
SRE 本 本 輪読会 輪読会 #1 - 2. 14章 章
: インシデント管理 インシデント管理 2. 14章 : インシデント管理
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
前提 前提 インシデント管理 : 前提 - Google のインシデント管理のシステムは Incident Management System に基いている - インシデントに関わる全員が自分の役割を知り、他の誰 かの領域に踏み込んでしまわないようにすることは重要 - 責任分担をはっきりと分けることによって、一人一人が 自律的に動けるようになります。 - 自分の負荷が大きいのであれば、その人物は計画担当の リーダーにスタッフの追加を求め、その作業を他のメン バーに任せる
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( インシデント指揮者 インシデント指揮者 ) インシデント管理 : 役割 ( インシデント指揮者 ) - インシデント指揮者 - インシデント指揮者は、インシデントに関する 高レベルの状況を把握する。 - インシデント指揮者は、インシデントレスポンス チームを構成し、必要性と優先順位に応じて 責任を割り当てる - 指揮者は移譲していないすべての役割を受け持つ
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( 実行作業 実行作業 ) インシデント管理 : 役割 ( 実行作業 ) - 実行作業 - 実行作業担当のリーダーはインシデント指揮者と 共に働く - インシデントの発生中は、システムを修正するのは 実行作業チームのみが行う
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( コミュニケーション コミュニケーション ) インシデント管理 : 役割 ( コミュニケーション ) - コミュニケーション - コミュニケーション担当は、インシデント レスポンスチームの公の顔である - 役割はインシデントレスポンスチームと ステークホルダーに対し定期的に最新情報を 発行すること - インシデントに関するドキュメントを正確かつ 最新の状態に保つことを受け持つ場合もある
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
役割 役割 ( 計画 計画 ) インシデント管理 : 役割 ( 計画 ) - 計画 - 計画担当者は、長期的な課題を扱うことで 実行チームを支援している - バグの登録・夕食の発注・引き継ぎの調整・ インシデント解決後にシステムの状態を 元に戻せるように記録する
SRE 本 本 輪読会 輪読会 #1 - インシデント管理 インシデント管理 :
やり方 やり方 インシデント管理 : やり方 - インシデント宣言すべき条件 - その問題を修復するために別のチームに関わって 貰う必要があるか? - サービス障害がユーザーに影響しているか? - 集中して分析を1時間行っても、まだその問題は 解決していないか? - どこへいけばインシデント指揮者とやりとりが できるか理解しておく必要がある - インシデント指揮者の最も重要な責務は、 インシデントのドキュメントを常に最新にする
SRE 本 本 輪読会 輪読会 #1 - 3. Backlog の稼働状況
の稼働状況 3. Backlog の稼働状況
SRE 本 本 輪読会 輪読会 #1 - Backlog の稼働状況 の稼働状況
: DBの のCPU使用率 使用率 Backlog の稼働状況 : DBのCPU使用率
SRE 本 本 輪読会 輪読会 #1 - Backlog の稼働状況 の稼働状況
: 特徴 特徴 Backlog の稼働状況 : 特徴 - 平日の8時から22時の時間帯がよく使われる - 休日はほぼ稼働しない
SRE 本 本 輪読会 輪読会 #1 - 4. Backlog での緊急対応方法
での緊急対応方法 4. Backlog での 緊急対応方法
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 監視概要 監視概要 Backlog の緊急対応 : 監視概要 仮想マシン ( AWS 提供 ) 外部ホスト OS ミドルウェア アプリケーション Cloudwatch mackerel サービス ( Backlog ) nagios 仮想マシン ( AWS 提供 ) OS ミドルウェア アプリケーション Cloudwatch mackerel
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 監視概要説明 監視概要説明 Backlog の緊急対応 : 緊急対応のケース - どういう経緯で緊急とみなすか? - Nagios のアラートを検知した場合 - Mackerel でクリティカルなアラートを検知した場合 - エゴサーチ ( Twitter ) - ヌーラボメンバーによる報告
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 通知チャネル 通知チャネル Backlog の緊急対応 : 通知チャネル Topic for Nagios Topic for Twitter Topic for Mackerel Meet for Emergency Topic for Emergency 各トピックの状況を みて緊急対応用のト ピックにポストする Nulabers - SRE/DEV - Support 緊急用のトピックに投稿された らすぐに反応し調査を開始する その際に Meet に接続し会話で きる状態にする Nulaber Customers サポートチームが障 害状況を顧客にアッ プデートする
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 良い点 良い点 Backlog の緊急対応 : 良い点 - 緊急対応に対する経営層・管理職の理解がある - ブレインストーミングが気軽にできている - 最速で障害に対応する基礎はある
SRE 本 本 輪読会 輪読会 #1 - Backlog の緊急対応 の緊急対応
: 問題点 問題点 Backlog の緊急対応 : 問題点 - 緊急対応のハンズオントレーニングは実施できていない - 対応する人のローテションは明確にはできておらず、特 定の人で行うケースがまだ多い - 予防的なアプローチはとれておらず、発生ベースで課題 を解決している
SRE 本 本 輪読会 輪読会 #1 - 5. Backlog でのインシデント管理
でのインシデント管理 5. Backlog での インシデント管理
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: フロー フロー Backlog でのインシデント管理 : フロー Meet for Emergency Topic for Emergency Typetalk のまとめ機能 を使い障害中のやりと りをまとめる Nulabers - SRE/DEV - Support 障害対応完了 障害の振り返りをオン ラインで実施 Typetalk から Backlog へ課題を作成し障害内 容・事後対応を記載す る Customers 障害報告書 Typetalk のやりとりか ら障害内容から障害報 告書を記載 障害の内容をステーク ホルダーに連絡する
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: まとめ機能 まとめ機能 Backlog でのインシデント管理 : まとめ機能
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: 良い点 良い点 Backlog でのインシデント管理方法 : 良い点 - 明確なインシデント管理方法のドキュメントはないがふ んわりロールわけするようになっている - 全体をみて状況を把握する人 調査状況がわからなければ催促 お客さんへの連絡がされてなければ催促 - 障害を調査する人 システムの問題を見る人 - アナウンスする人 お客さんへどう案内するか考える人
SRE 本 本 輪読会 輪読会 #1 - Backlog でのインシデント管理 でのインシデント管理
: 悪い点 悪い点 Backlog でのインシデント管理方法 : 悪い点 - インシデント対応を行いながら、ルールを決めていった が、ルールの文書化はされていない - 各チームの役割がふんわりしていて、明確な役割分担に なっていないケースがある
SRE 本 本 輪読会 輪読会 #1 - 宣伝 宣伝 インフラエンジニア募集
https://nulab-inc.com/ja/about/careers/infrastructure-engineer/