インシデント発生時のSlack / we-fight-with-slack
by
hideki kinjyo
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Slackによる インシデント対応 Tech-on MeetUp#07 Hideki Kinjyo twitter: @o0h_ / github: o0h
Slide 2
Slide 2 text
ࣗݾհ • ίωώτגࣜձࣾ • αʔόʔαΠυΤϯδχΞ • ओʹCakePHPͳͲ
Slide 3
Slide 3 text
最近は監視をhogehogeしています 会社のブログ -> http://tech.connehito.com/archive/author/o0h
Slide 4
Slide 4 text
今⽇のお話: インシデント発⽣時の コミュニケーションを整える with Slack
Slide 5
Slide 5 text
(⽐較的⼩さなチームで) インシデント時の緊急対応、 どうしていますか?
Slide 6
Slide 6 text
我々のチームの規模感 αʔόʔαΠυ Σϒϑϩϯτ ϞόΠϧ Πϯϑϥ
Slide 7
Slide 7 text
我々のチームの規模感 αʔόʔαΠυ Σϒϑϩϯτ ϞόΠϧ Πϯϑϥ • めっちゃくちゃ少ない、って程でもないが • DevもOpsも⼊り混じってるよ〜くらいのサイズ
Slide 8
Slide 8 text
⼩さいチームの良い所/悪い所 • 良い所: • 知識量が分散しにくい • コミュニケーションがとりやすい • 悪い所: • 「仕組み化」が過剰コストになりがち
Slide 9
Slide 9 text
この状態で 「インシデント対応」 どうしていくか?
Slide 10
Slide 10 text
そもそもの話として・・・ • インシデントが発⽣したときって • いろんな判断⼒が求められたり • やったこと無いとムズい(怖い)し • テンパるし
Slide 11
Slide 11 text
怖くて孤独
Slide 12
Slide 12 text
チームの「良さ」を活かして 問題の「難しさ」に 対処したい!
Slide 13
Slide 13 text
⼩っちゃいからさ! • まだまだ整備(やマンパワー)が 追いついていない部分も多いが • 全員が互いの顔や職務を知っているくらいの 距離感にいるから • 「誰に任せる」「⾃分がやる」の綱引きを スムーズにやりやすいよう整えれば勝てる!
Slide 14
Slide 14 text
武器:コミュニケーション
Slide 15
Slide 15 text
Slackでザクザク対応していく
Slide 16
Slide 16 text
いざという時のための 「Slackどう使う?」の ふわっとガイドライン
Slide 17
Slide 17 text
コネヒトでの流れ 1. 障害検知 => アラートに気づいた誰かが投げる 2. Slack上にテンポラリな「対応専⽤チャンネル」作成 => インシデントごとの使い捨て 3. 調査 => その時に⼿を動かせる⼈がいっぱい頑張る 4. ⼀次対応 => その場でできることをいっぱい頑張る 5. ポストモーテム
Slide 18
Slide 18 text
コネヒトでの流れ 1. 障害検知 => アラートに気づいた誰かが投げる 2. Slack上にテンポラリな「対応専⽤チャンネル」作成 => インシデントごとの使い捨て 3. 調査 => その時に⼿を動かせる⼈がいっぱい頑張る 4. ⼀次対応 => その場でできることをいっぱい頑張る 5. ポストモーテム
Slide 19
Slide 19 text
実際の例
Slide 20
Slide 20 text
なんでチャンネルを? • 「対応チーム」がないので 「騒ぎ⽴てるのをわかりやすくしたい」。 関係者全員の温度感を上げるのも必要 • (⼀次対応の完了後に) 恒久対応時に速やかに情報を整理したい &振り返り・検証材料 • 全てが完了したらチャンネルごとアーカイブ
Slide 21
Slide 21 text
チャンネルをどう使うか? • 開設後に即座に • エンジニア、ディレクターをinvite • 検知したエビデンス、いま分かっているこ とを貼り付ける • 対応可能な⼈の確認(リアクションを⾶ばす)
Slide 22
Slide 22 text
チャンネルをどう使うか? • 状況の進展に応じて • 役割分担(cf: ⼊⾨監視「インシデント管理」 (P48)) • 調査状況や判明した事実、仮説を随時投げ 込む
Slide 23
Slide 23 text
チャンネルをどう使うか? • ⼀次対応が完了したら • 「収束した」と判断した材料を共有、合意を取る • ポストモーテムに向けて • 根本原因の調査や報告の取りまとめを誰が&どう進める か?の確認 • すべての振り返りを完了させたらチャンネルのクローズ
Slide 24
Slide 24 text
作業フローの整備にあたって • 「インシデント対応⼼構え」の⾔語化、共有 • ユーザー被害の沈静化 >> 根本原因究明 • 事実と推測を切り分ける • 最悪の事態を想定する etc • 「実際の流れ」のシミュレーション、 メンバー全員による共有会の実施
Slide 25
Slide 25 text
まとめ!
Slide 26
Slide 26 text
おさらい 1. インシデント対応時に「重要なこと」「優先 順位」の明確化、認識の共通化をする 2. それらの⽬的に即した「情報流通のあり⽅」 のイメージを持つ 3. 事例を蓄積していく
Slide 27
Slide 27 text
細かく決めすぎない! • 「決めごと」は萎縮を招く • ⽬的意識だけ共有して、柔軟性を尊重 • 「(誰でも)気持ちよく動くには?」の プラクティスをまとめていくのが⼤事 • いつも対応してる⼈の”アルアル”観点
Slide 28
Slide 28 text
͓͖߹͍͍͖ͨͩ ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ