Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最速でサービス復旧をするための備え

SansanTech
January 16, 2024

 最速でサービス復旧をするための備え

■イベント
Incident Response Meetup vol.1
https://incident-response.connpass.com/event/304636/

■登壇概要
タイトル:最速でサービス復旧をするための備え
登壇者:技術本部 Bill One Engineering Unit SREチーム 上司 陽平

■Bill One エンジニア 採用情報
https://media.sansan-engineering.com/billone-engineer

SansanTech

January 16, 2024
Tweet

More Decks by SansanTech

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 じょーし(上司) Sansan株式会社 @paper2parasol - Sansan株式会社でBill OneプロダクトのSREチーム に2022年8⽉から所属 - 前職はSIer企業でコンテナ技術やSREの普及活動、

    AWS・AzureでのKubernetesサービスの設計・構 築に従事 - 現職ではオブザーバビリティの向上、負荷試験に よる性能改善、IaC化などを推進 - 好きなものはラーメンとCloud Run
  2. © Sansan, Inc. 事業部の組織体制 デザイナー エンジニア 顧客開発チーム (約120名) PdM カスタマーサクセス

    セールス マーケティング PMM プロダクト開発チーム (約60名) アーキテクト 15
  3. © Sansan, Inc. Bill Oneのインシデント対応における役割と担当 システム対応の指揮命令者 (開発組織のマネジャー) インシデント判断の意思決定者 (Product Manager

    (PdM)) 作業担当 (エンジニア) 現場指揮者 (エンジニア) 顧客対応の指揮命令者 (Product Marketing Manager (PMM))
  4. © Sansan, Inc. システム対応の指揮命令者(開発組織のマネジャー) - システム現場の指揮命令 - インシデント判断の意思決定者と顧客対応の指揮命令者との 連絡窓⼝ -

    影響範囲の報告 - 復旧の⾒込みについての報告 - 問題個所を特定した時点で復旧までの⾒込みを判断して報告
  5. © Sansan, Inc. インシデントレベルの定義 ひみつ - インシデントの⼤きさを表すレベルを事前に定義 - レベルに合わせた対応モードを定義 -

    例えば特定のモードでは他のすべての業務よりインシデント対応 を優先することなどが定められている - 事前定義をしておくことで関係者 がレベルに合わせて同じ優先度で 対応できる
  6. © Sansan, Inc. まとめ - インシデント対応において迅速に、効率的に復旧作業をする ためには事前準備が重要 - Bill Oneでは様々な事前準備を⾏っている

    - インシデント対応における役割と担当 - インシデント対応フロー - インシデントレベルの定義...etc