下記イベントにて発表した資料です
https://yuru-sre.connpass.com/event/292063/
みんなでエラー監視するSRE夕会の効果2023/08/28 ゆるSRE勉強会 #1 5min LT @aboy
View Slide
自己紹介aboy2- aboy (あぼ)- コネヒト株式会社 – AI・検索グループ- Webアプリケーション開発が主担当- PHP (CakePHP) / Go / TypeScript (React)X(Twitter) @suxisuxido
SRE夕会とは
4SRE夕会とはこうして始まった- 参照)息をするようにエラー監視する(当時始めた人の関連資料)https://speakerdeck.com/sukun1899/xi-wosuruyounierajian-shi-suru- エラーを放置せず、みんなで監視をしていくための取り組みとして 3年ほど前に開始- ※自分はファーストペンギンではありませんが、現在続けている当事者の一人として紹介しに来ました ✋
5SRE夕会とは概要- コネヒトで行っている SRE夕会は、毎日夕方に有志で集まって、その日発生したエラーをみんなで確認する場- Slack ハドルに集まって一人が画面共有してモブ作業的なことする- 主に(Web)ソフトウェアエンジニアが参加している- SREng や SRE チームがあるわけじゃない- Slack にいくつかの基準でエラーが通知されるのでそれを確認する
6SRE夕会とはどうやっているか- 夕会までに、Slack に通知されたエラーを見れる人が確認する、新規エラーであれば 🆕スタンプを付ける- 夕会では、前回以降に発生したエラーをざっと見て、 🆕が付いた新規エラーがあれば優先して確認し、見終わったら残りのエラーを確認する- 調査したことはエラーごとに GitHub Issue に記録する
SRE夕会の効果
8SRE夕会の効果参加者に学びがある- 使用している言語やフレームワークの知識- 監視ツール、分析ツールの使い方- エラー調査の勘所- ドメイン知識
9SRE夕会の効果エラーの情報がたまる- 誰でも、それまでの情報を元に調査・対応ができる
10SRE夕会の効果重要な発見、異変に気づける- 複数の脳みそで考えられることによって、ビジネス上の機会損失になっているかもとか、 Bad UXになっているかもとか、あるいはエラーの再現方法などの発見がある- 継続することで「よくはわからないけどいつもと違う」など異変に気づける
11SRE夕会の効果運用の意識がつく- 例えばログの大切さに気づいて、開発段階から運用を意識したログを考えるようになる- 例えば監視ツールの便利さに気づいて、新機能リリース後関連するエンドポイントのメトリクスを見るようになる
まとめ
13まとめ- コネヒトにおけるエラー監視の取り組みの一つ SRE夕会を紹介しました- みんなで集まり、エラーを確認し、情報を記録する- さまざまな効果を実感しています- 参加者に学びがある、情報の蓄積、重要な発見や異変に気づける、運用の意識がつく- みんなで SRE していきましょう!