Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
インシデント発生時のSlack / we-fight-with-slack
Search
hideki kinjyo
PRO
July 08, 2019
Technology
1
2.9k
インシデント発生時のSlack / we-fight-with-slack
Tech-on MeetUp#07「OpsとDevの蜜月な関係」
https://techplay.jp/event/734673
「インシデント対応でSlackどう使おうか」という話をしました
hideki kinjyo
PRO
July 08, 2019
Tweet
Share
More Decks by hideki kinjyo
See All by hideki kinjyo
色んなオートローダーを覗き見る #phpcon_okinawa
o0h
PRO
5
550
ヒューマンエラーの本を読んだ ~報告会~
o0h
PRO
3
280
みんなでワイワイ「テスト駆動開発」の話をやる会 #techramen24conf
o0h
PRO
3
550
SPLから始める「データ構造」入門
o0h
PRO
7
1.9k
PHPUnit11の新しい仲間たち
o0h
PRO
3
410
単体テストを書かない技術 #phpcon_odawara
o0h
PRO
61
21k
パンフ記事 「初めてのリファクタリング!」 の裏側 #phperkaigi
o0h
PRO
2
170
phpunit/php-code-coverageって何をしてるんだ #phperkaigi
o0h
PRO
3
1.5k
Composerを便利に使うために私がやっていること #phperkaigi
o0h
PRO
1
2.9k
Other Decks in Technology
See All in Technology
まだ間に合う! エンジニアのための生成AIアプリ開発入門 on AWS
minorun365
PRO
4
580
依存関係があるコンポーネントは Barrel ファイルでまとめよう
azukiazusa1
3
530
トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~
jacopen
2
1.5k
10分で紹介するAmazon Bedrock利用時のセキュリティ対策 / 10-minutes introduction to security measures when using Amazon Bedrock
hideakiaoyagi
0
170
5分で紹介する生成AIエージェントとAmazon Bedrock Agents / 5-minutes introduction to generative AI agents and Amazon Bedrock Agents
hideakiaoyagi
0
220
関東Kaggler会LT: 人狼コンペとLLM量子化について
nejumi
3
460
30分でわかる『アジャイルデータモデリング』
hanon52_
9
2.2k
これからSREになる人と、これからもSREをやっていく人へ
masayoshi
6
4.1k
目の前の仕事と向き合うことで成長できる - 仕事とスキルを広げる / Every little bit counts
soudai
22
5.8k
Data-centric AI入門第6章:Data-centric AIの実践例
x_ttyszk
1
370
AndroidXR 開発ツールごとの できることできないこと
donabe3
0
110
7日間でハッキングをはじめる本をはじめてみませんか?_ITエンジニア本大賞2025
nomizone
2
1.4k
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Done Done
chrislema
182
16k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Being A Developer After 40
akosma
89
590k
Gamification - CAS2011
davidbonilla
80
5.1k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Code Review Best Practice
trishagee
66
17k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
GraphQLの誤解/rethinking-graphql
sonatard
68
10k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Transcript
Slackによる インシデント対応 Tech-on MeetUp#07 Hideki Kinjyo twitter: @o0h_ / github:
o0h
ࣗݾհ • ίωώτגࣜձࣾ • αʔόʔαΠυΤϯδχΞ • ओʹCakePHPͳͲ
最近は監視をhogehogeしています 会社のブログ -> http://tech.connehito.com/archive/author/o0h
今⽇のお話: インシデント発⽣時の コミュニケーションを整える with Slack
(⽐較的⼩さなチームで) インシデント時の緊急対応、 どうしていますか?
我々のチームの規模感 αʔόʔαΠυ Σϒϑϩϯτ ϞόΠϧ Πϯϑϥ
我々のチームの規模感 αʔόʔαΠυ Σϒϑϩϯτ ϞόΠϧ Πϯϑϥ • めっちゃくちゃ少ない、って程でもないが • DevもOpsも⼊り混じってるよ〜くらいのサイズ
⼩さいチームの良い所/悪い所 • 良い所: • 知識量が分散しにくい • コミュニケーションがとりやすい • 悪い所: •
「仕組み化」が過剰コストになりがち
この状態で 「インシデント対応」 どうしていくか?
そもそもの話として・・・ • インシデントが発⽣したときって • いろんな判断⼒が求められたり • やったこと無いとムズい(怖い)し • テンパるし
怖くて孤独
チームの「良さ」を活かして 問題の「難しさ」に 対処したい!
⼩っちゃいからさ! • まだまだ整備(やマンパワー)が 追いついていない部分も多いが • 全員が互いの顔や職務を知っているくらいの 距離感にいるから • 「誰に任せる」「⾃分がやる」の綱引きを スムーズにやりやすいよう整えれば勝てる!
武器:コミュニケーション
Slackでザクザク対応していく
いざという時のための 「Slackどう使う?」の ふわっとガイドライン
コネヒトでの流れ 1. 障害検知 => アラートに気づいた誰かが投げる 2. Slack上にテンポラリな「対応専⽤チャンネル」作成 => インシデントごとの使い捨て 3.
調査 => その時に⼿を動かせる⼈がいっぱい頑張る 4. ⼀次対応 => その場でできることをいっぱい頑張る 5. ポストモーテム
コネヒトでの流れ 1. 障害検知 => アラートに気づいた誰かが投げる 2. Slack上にテンポラリな「対応専⽤チャンネル」作成 => インシデントごとの使い捨て 3.
調査 => その時に⼿を動かせる⼈がいっぱい頑張る 4. ⼀次対応 => その場でできることをいっぱい頑張る 5. ポストモーテム
実際の例
なんでチャンネルを? • 「対応チーム」がないので 「騒ぎ⽴てるのをわかりやすくしたい」。 関係者全員の温度感を上げるのも必要 • (⼀次対応の完了後に) 恒久対応時に速やかに情報を整理したい &振り返り・検証材料 •
全てが完了したらチャンネルごとアーカイブ
チャンネルをどう使うか? • 開設後に即座に • エンジニア、ディレクターをinvite • 検知したエビデンス、いま分かっているこ とを貼り付ける • 対応可能な⼈の確認(リアクションを⾶ばす)
チャンネルをどう使うか? • 状況の進展に応じて • 役割分担(cf: ⼊⾨監視「インシデント管理」 (P48)) • 調査状況や判明した事実、仮説を随時投げ 込む
チャンネルをどう使うか? • ⼀次対応が完了したら • 「収束した」と判断した材料を共有、合意を取る • ポストモーテムに向けて • 根本原因の調査や報告の取りまとめを誰が&どう進める か?の確認
• すべての振り返りを完了させたらチャンネルのクローズ
作業フローの整備にあたって • 「インシデント対応⼼構え」の⾔語化、共有 • ユーザー被害の沈静化 >> 根本原因究明 • 事実と推測を切り分ける •
最悪の事態を想定する etc • 「実際の流れ」のシミュレーション、 メンバー全員による共有会の実施
まとめ!
おさらい 1. インシデント対応時に「重要なこと」「優先 順位」の明確化、認識の共通化をする 2. それらの⽬的に即した「情報流通のあり⽅」 のイメージを持つ 3. 事例を蓄積していく
細かく決めすぎない! • 「決めごと」は萎縮を招く • ⽬的意識だけ共有して、柔軟性を尊重 • 「(誰でも)気持ちよく動くには?」の プラクティスをまとめていくのが⼤事 • いつも対応してる⼈の”アルアル”観点
͓͖߹͍͍͖ͨͩ ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ