SREのプラクティスにおいてアラートに対応するRunbookを備えることは推奨されています。しかしながら記載する内容についてはしばしば議論の対象となり、短期的な対応手順にフォーカスするのか、ハイレベルな情報にフォーカスするのか、メンテナンスのコストとのバランスをどのように取るか、むしろRunbookに時間を費やすべきではないのではないか、といったことまで様々な意見があります。
グリーではいわゆる障害対応の手順書は古くから運用されていましたが、それらは基本的に一次対応にフォーカスしており、根本的な原因調査のヒントがない、アラートの背景を伝えられていない、検索性が悪いなどの課題がありました。
本セッションでは一つの解として、これらの課題を解決するために新たにアラートに対応するRunbookの仕組みを整備し、新規に運用を開始した事例についてお話します。
また、合わせてアラートをより有効に機能させるための振り分けルール、通知チャンネル選択のガイドラインといったトピックについて扱います。