最速でサービス復旧をするための備え
by
SansanTech
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
最速でサービス復旧をするための備え [ Incident Response Meetup vol.1 ] Sansan株式会社 Bill One Engineering Unit SREチーム 上司 陽平
Slide 2
Slide 2 text
⾃⼰紹介 じょーし(上司) Sansan株式会社 @paper2parasol - Sansan株式会社でBill OneプロダクトのSREチーム に2022年8⽉から所属 - 前職はSIer企業でコンテナ技術やSREの普及活動、 AWS・AzureでのKubernetesサービスの設計・構 築に従事 - 現職ではオブザーバビリティの向上、負荷試験に よる性能改善、IaC化などを推進 - 好きなものはラーメンとCloud Run
Slide 3
Slide 3 text
事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ
Slide 4
Slide 4 text
事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ
Slide 5
Slide 5 text
最速でサービスを復旧する ためには何が重要??
Slide 6
Slide 6 text
事前準備が重要
Slide 7
Slide 7 text
- インシデント対応時の役割の定義 - インシデント対応フロー - インシデントレベルの定義 - オンコールシフト表 - 連絡先管理表...etc 事前準備の例
Slide 8
Slide 8 text
なんで事前準備が重要なの??
Slide 9
Slide 9 text
誰が何をやるか毎回決める必要 があって混乱したり... 対応時の役割定義がないと... いつの間にか皆んなで原因を分 析していて暫定対策が疎かにな っていたり... インシデント対応フローがないと...
Slide 10
Slide 10 text
関係者間でどのくらいやばいか の認識が合わず、対応の優先度 が異なってしまったり... インシデントレベル定義がないと... 途中から加わったメンバが状況 をすぐ把握できなかったり... インシデント状況ボードがないと...
Slide 11
Slide 11 text
事前準備により 迅速で効率的な復旧が実現できる
Slide 12
Slide 12 text
対応時の役割定義により インシデント発⽣時に誰が何を するかなどに悩むことなく迅速 に⾏動を開始できる インシデント状況ボードにより 重要な情報を的確に関係者間で 共有可能になる インシデント対応フローにより 問題の特定と解決に向けた⼿順 をもれなく、円滑に進⾏できる インシデントレベル定義により 関係者がレベルに合わせて同じ 優先度で対応できる
Slide 13
Slide 13 text
Bill Oneのサービス復旧に向けた 準備の⼀部をご紹介します - 役割定義 - インシデント対応フロー概要 - インシデントレベルの定義 - インシデント状況ボード
Slide 14
Slide 14 text
事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ
Slide 15
Slide 15 text
© Sansan, Inc. 事業部の組織体制 デザイナー エンジニア 顧客開発チーム (約120名) PdM カスタマーサクセス セールス マーケティング PMM プロダクト開発チーム (約60名) アーキテクト 15
Slide 16
Slide 16 text
双⽅のチームが協⼒しながら インシデントに対応する
Slide 17
Slide 17 text
© Sansan, Inc. Bill Oneのインシデント対応における役割と担当 システム対応の指揮命令者 (開発組織のマネジャー) インシデント判断の意思決定者 (Product Manager (PdM)) 作業担当 (エンジニア) 現場指揮者 (エンジニア) 顧客対応の指揮命令者 (Product Marketing Manager (PMM))
Slide 18
Slide 18 text
© Sansan, Inc. システム対応の指揮命令者(開発組織のマネジャー) - システム現場の指揮命令 - インシデント判断の意思決定者と顧客対応の指揮命令者との 連絡窓⼝ - 影響範囲の報告 - 復旧の⾒込みについての報告 - 問題個所を特定した時点で復旧までの⾒込みを判断して報告
Slide 19
Slide 19 text
© Sansan, Inc. 現場指揮者(エンジニア) 役割の⼀部を明⽰的 な指⽰によって委譲 - より早い復旧が期待できる場合などにエンジニアに委譲 - 指揮命令なども実施できるメンバが⼀定いる システム対応の指揮命令者 現場指揮者
Slide 20
Slide 20 text
© Sansan, Inc. インシデント判断の意思決定者(Product Manager) プロダクトマネジャーがインシデントのレベルを決定し、 プロダクトとしてインシデントであるかを判断する
Slide 21
Slide 21 text
© Sansan, Inc. 作業担当の役割(開発組織のエンジニア) - インシデントの原因の特定 - プロダクトにおける影響の調査 - 暫定 / 恒久対応の検討 - 復旧対応
Slide 22
Slide 22 text
© Sansan, Inc. 顧客対応の指揮命令者の役割(PMM) - 連絡担当への指揮命令 - インシデント発⽣時ユーザアナウンスの判断 - 復旧後のユーザアナウンス判断 - アナウンス⽅法(メール、お知らせ、報告書)の判断 および作成指⽰
Slide 23
Slide 23 text
事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ
Slide 24
Slide 24 text
© Sansan, Inc. インシデント対応フローの概要
Slide 25
Slide 25 text
© Sansan, Inc.
Slide 26
Slide 26 text
© Sansan, Inc.
Slide 27
Slide 27 text
© Sansan, Inc.
Slide 28
Slide 28 text
© Sansan, Inc.
Slide 29
Slide 29 text
事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ
Slide 30
Slide 30 text
© Sansan, Inc. インシデントレベルの定義 ひみつ - インシデントの⼤きさを表すレベルを事前に定義 - レベルに合わせた対応モードを定義 - 例えば特定のモードでは他のすべての業務よりインシデント対応 を優先することなどが定められている - 事前定義をしておくことで関係者 がレベルに合わせて同じ優先度で 対応できる
Slide 31
Slide 31 text
© Sansan, Inc. - Slackのインシデントチャンネルの初期投稿を インシデント状況ボードとして活⽤している - 随時更新するので途中から参加したメンバもすぐに状況を 把握することができる インシデント状況ボード
Slide 32
Slide 32 text
事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ
Slide 33
Slide 33 text
© Sansan, Inc. まとめ - インシデント対応において迅速に、効率的に復旧作業をする ためには事前準備が重要 - Bill Oneでは様々な事前準備を⾏っている - インシデント対応における役割と担当 - インシデント対応フロー - インシデントレベルの定義...etc
Slide 34
Slide 34 text
© Sansan, Inc.