Slide 1

Slide 1 text

最速でサービス復旧をするための備え [ Incident Response Meetup vol.1 ] Sansan株式会社 Bill One Engineering Unit SREチーム 上司 陽平

Slide 2

Slide 2 text

⾃⼰紹介 じょーし(上司) Sansan株式会社 @paper2parasol - Sansan株式会社でBill OneプロダクトのSREチーム に2022年8⽉から所属 - 前職はSIer企業でコンテナ技術やSREの普及活動、 AWS・AzureでのKubernetesサービスの設計・構 築に従事 - 現職ではオブザーバビリティの向上、負荷試験に よる性能改善、IaC化などを推進 - 好きなものはラーメンとCloud Run

Slide 3

Slide 3 text

事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ

Slide 4

Slide 4 text

事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ

Slide 5

Slide 5 text

最速でサービスを復旧する ためには何が重要??

Slide 6

Slide 6 text

事前準備が重要

Slide 7

Slide 7 text

- インシデント対応時の役割の定義 - インシデント対応フロー - インシデントレベルの定義 - オンコールシフト表 - 連絡先管理表...etc 事前準備の例

Slide 8

Slide 8 text

なんで事前準備が重要なの??

Slide 9

Slide 9 text

誰が何をやるか毎回決める必要 があって混乱したり... 対応時の役割定義がないと... いつの間にか皆んなで原因を分 析していて暫定対策が疎かにな っていたり... インシデント対応フローがないと...

Slide 10

Slide 10 text

関係者間でどのくらいやばいか の認識が合わず、対応の優先度 が異なってしまったり... インシデントレベル定義がないと... 途中から加わったメンバが状況 をすぐ把握できなかったり... インシデント状況ボードがないと...

Slide 11

Slide 11 text

事前準備により 迅速で効率的な復旧が実現できる

Slide 12

Slide 12 text

対応時の役割定義により インシデント発⽣時に誰が何を するかなどに悩むことなく迅速 に⾏動を開始できる インシデント状況ボードにより 重要な情報を的確に関係者間で 共有可能になる インシデント対応フローにより 問題の特定と解決に向けた⼿順 をもれなく、円滑に進⾏できる インシデントレベル定義により 関係者がレベルに合わせて同じ 優先度で対応できる

Slide 13

Slide 13 text

Bill Oneのサービス復旧に向けた 準備の⼀部をご紹介します - 役割定義 - インシデント対応フロー概要 - インシデントレベルの定義 - インシデント状況ボード

Slide 14

Slide 14 text

事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ

Slide 15

Slide 15 text

© Sansan, Inc. 事業部の組織体制 デザイナー エンジニア 顧客開発チーム (約120名) PdM カスタマーサクセス セールス マーケティング PMM プロダクト開発チーム (約60名) アーキテクト 15

Slide 16

Slide 16 text

双⽅のチームが協⼒しながら インシデントに対応する

Slide 17

Slide 17 text

© Sansan, Inc. Bill Oneのインシデント対応における役割と担当 システム対応の指揮命令者 (開発組織のマネジャー) インシデント判断の意思決定者 (Product Manager (PdM)) 作業担当 (エンジニア) 現場指揮者 (エンジニア) 顧客対応の指揮命令者 (Product Marketing Manager (PMM))

Slide 18

Slide 18 text

© Sansan, Inc. システム対応の指揮命令者(開発組織のマネジャー) - システム現場の指揮命令 - インシデント判断の意思決定者と顧客対応の指揮命令者との 連絡窓⼝ - 影響範囲の報告 - 復旧の⾒込みについての報告 - 問題個所を特定した時点で復旧までの⾒込みを判断して報告

Slide 19

Slide 19 text

© Sansan, Inc. 現場指揮者(エンジニア) 役割の⼀部を明⽰的 な指⽰によって委譲 - より早い復旧が期待できる場合などにエンジニアに委譲 - 指揮命令なども実施できるメンバが⼀定いる システム対応の指揮命令者 現場指揮者

Slide 20

Slide 20 text

© Sansan, Inc. インシデント判断の意思決定者(Product Manager) プロダクトマネジャーがインシデントのレベルを決定し、 プロダクトとしてインシデントであるかを判断する

Slide 21

Slide 21 text

© Sansan, Inc. 作業担当の役割(開発組織のエンジニア) - インシデントの原因の特定 - プロダクトにおける影響の調査 - 暫定 / 恒久対応の検討 - 復旧対応

Slide 22

Slide 22 text

© Sansan, Inc. 顧客対応の指揮命令者の役割(PMM) - 連絡担当への指揮命令 - インシデント発⽣時ユーザアナウンスの判断 - 復旧後のユーザアナウンス判断 - アナウンス⽅法(メール、お知らせ、報告書)の判断 および作成指⽰

Slide 23

Slide 23 text

事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ

Slide 24

Slide 24 text

© Sansan, Inc. インシデント対応フローの概要

Slide 25

Slide 25 text

© Sansan, Inc.

Slide 26

Slide 26 text

© Sansan, Inc.

Slide 27

Slide 27 text

© Sansan, Inc.

Slide 28

Slide 28 text

© Sansan, Inc.

Slide 29

Slide 29 text

事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ

Slide 30

Slide 30 text

© Sansan, Inc. インシデントレベルの定義 ひみつ - インシデントの⼤きさを表すレベルを事前に定義 - レベルに合わせた対応モードを定義 - 例えば特定のモードでは他のすべての業務よりインシデント対応 を優先することなどが定められている - 事前定義をしておくことで関係者 がレベルに合わせて同じ優先度で 対応できる

Slide 31

Slide 31 text

© Sansan, Inc. - Slackのインシデントチャンネルの初期投稿を インシデント状況ボードとして活⽤している - 随時更新するので途中から参加したメンバもすぐに状況を 把握することができる インシデント状況ボード

Slide 32

Slide 32 text

事前準備の重要性 Bill Oneにおける役割と担当 インシデント対応フロー インシデントレベル、状況ダッシュボード まとめ

Slide 33

Slide 33 text

© Sansan, Inc. まとめ - インシデント対応において迅速に、効率的に復旧作業をする ためには事前準備が重要 - Bill Oneでは様々な事前準備を⾏っている - インシデント対応における役割と担当 - インシデント対応フロー - インシデントレベルの定義...etc

Slide 34

Slide 34 text

© Sansan, Inc.