Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Runbookに何を書き、どのようにアラートを振り分けるか?

Sohei Iwahori
September 29, 2023

 Runbookに何を書き、どのようにアラートを振り分けるか?

SREのプラクティスにおいてアラートに対応するRunbookを備えることは推奨されています。しかしながら記載する内容についてはしばしば議論の対象となり、短期的な対応手順にフォーカスするのか、ハイレベルな情報にフォーカスするのか、メンテナンスのコストとのバランスをどのように取るか、むしろRunbookに時間を費やすべきではないのではないか、といったことまで様々な意見があります。

グリーではいわゆる障害対応の手順書は古くから運用されていましたが、それらは基本的に一次対応にフォーカスしており、根本的な原因調査のヒントがない、アラートの背景を伝えられていない、検索性が悪いなどの課題がありました。

本セッションでは一つの解として、これらの課題を解決するために新たにアラートに対応するRunbookの仕組みを整備し、新規に運用を開始した事例についてお話します。
また、合わせてアラートをより有効に機能させるための振り分けルール、通知チャンネル選択のガイドラインといったトピックについて扱います。

Sohei Iwahori

September 29, 2023
Tweet

More Decks by Sohei Iwahori

Other Decks in Technology

Transcript

  1. ʮΞϥʔτΛ௥Ճ͍ͨ͠ʯ͔Βੜ͕ͪ͡ͳ՝୊ » ᐆດͳཁ݅ » ໰୊͕ى͖ͨͷͰΞϥʔτΛઃఆ͍ͨ͠ » ௨஌ํ๏ɺظ଴͢ΔΞΫγϣϯ͓ΑͼλΠϛϯά͸ᐆດͳ·· » ඇରশੑ »

    ԣஅͰϧʔϧΛ௥Ճ͢ΔࡍΞϥʔτΛઃఆ͢ΔਓΞϥʔτΛड͚Δਓ͕Ұக͠ͳ͍ » ͋Δ೔ಥવݟ஌Β͵ΞϥʔτΛड͚Δ͜ͱʹͳΔ » ίϯςΩετͷ૕ࣦ » ͕࣌ؒܦա͠ɺΞϥʔτΛ௥Ճͨ͠จ຺͕ࣦΘΕͯ͠·͏ » ʮͳʹ͔େࣄͳཧ༝͕͋ͬͨ͸ͣɾɾʯ
  2. Runbookʹ͍ͭͯͷ༷ʑͳҙݟ(1/3) practiced on-call engineer armed with a playbook works much

    better. — Site Reliability Engineering /Chapter 1 - Introduction playbook(runbook)ͷਪ঑
  3. Runbookʹ͍ͭͯͷ༷ʑͳҙݟ(2/3) Just like new code, new alerts should be thoroughly

    and thoughtfully reviewed. Each alert should have a corresponding playbook entry. — SRE Workbook / Chapter 8 - On-Call ΞϥʔτʹରԠͨ͠playbook(runbook)ͷΤϯτϦ͕͋Δ΂͖
  4. Runbookʹ͍ͭͯͷ༷ʑͳҙݟ(3/3) The assertion that time spent creating runbooks is largely

    wasted may seem a bit harsh at first. — Observability Engineering / 8. Analyzing Events to Achieve Observability runbookʹ͔͚Δ࣌ؒ͸ແବ͔΋͠Εͳ͍
  5. ࣮૷ » gitϨϙδτϦӡ༻ » Ξϥʔτ௨஌γεςϜ΁ͷ૊ΈࠐΈ » ඞཁͳλΠϛϯάͰίϯςΩετΛิ׬͢Δ » ϢϏΩλευΩϡϝϯτతΞϓϩʔνΛߟ͑Δ1 »

    ؆қͳTemplate͔Βͷ࡞੒ 1 Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline Tom Limoncelli / SREcon20 Americas.
  6. ޮՌͱ՝୊ » ʮ׬શͳະ஌ͷΞϥʔτʯΛड͚ΔػձΛݮΒ͢͜ͱ͕Ͱ͖ͨ » ৺ཧత҆શੑ » ΦϯϘʔσΟϯάͰ࿫͍͑ͯͳ͍෦෼ͷαϙʔτ » Ҿ͖ଓ͖՝୊ͱײ͡Δ΋ͷ »

    υΩϡϝϯτࣗମͷޮՌଌఆ » ఆظతͳϝϯςφϯεͷΩοΫ » ྫ͑͹ҰఆظؒͰauthorʹ௨஌͕͍͘࢓૊ΈͳͲ
  7. Recap » Runbook͕͏·͘ϫʔΫ͢ΔͨΊͷ৚݅ » ੵΈ্͕͛Մೳ / ϗϫΠτϘοΫεϕʔεͷ௨஌Λར༻ » എܠɺίϯςΩετΛ௕ظతʹ఻͑Δ͜ͱ͸ॏཁ »

    Ξϥʔτͷઃఆ࣌ͷΨΠυ͸ରԠΞΫγϣϯΛ۩ମతʹߟ͑ΔͨΊʹ༗ޮ » ࣮૷༗ແɺܗଶ͸૊৫ͷ՝୊ʹ߹Θͤͯબ୒͢Δͱྑ͍
  8. who? » Sohei Iwahori (@egmc) » GREE, Inc. » Πϯϑϥ

    / Monitoring Unit Leader » ήʔϜͷΠϯϑϥͱϞχλϦϯά
  9. Appendix » Low Context DevOps: Improving SRE Team Culture through

    Defaults, Documentation, and Discipline » https://www.usenix.org/conference/srecon20americas/presentation/ limoncelli » GitLab On-call Run Books » https://gitlab.com/gitlab-com/runbooks » Dashboards and Runbooks: Scrapbooking for Engineers » https://www.usenix.org/conference/srecon22apac/presentation/douch