Slide 1

Slide 1 text

Copyright coconala Inc. All Rights Reserved. オンコール運用をほんの少し効率的に 行うための Tips 株式会社ココナラ 川崎 雄太 2024/08/06 PagerDuty on Tour TOKYO 2024

Slide 2

Slide 2 text

Copyright coconala Inc. All Rights Reserved. 自己紹介(川崎 雄太) 2 川崎 雄太 Yuta Kawasaki @yuta_k0911 株式会社ココナラ システムプラットフォーム部 部長 / Head of Information SRE / 情シス / セキュリティ領域のEM SRE NEXT 2024のコアメンバー 今年の抱負:現状打破 ✨

Slide 3

Slide 3 text

Copyright coconala Inc. All Rights Reserved. 3 Agenda PagerDutyを使い始める前のオンコール運用 PagerDutyを工夫して使ってみた いま取り組んでいること 2 1 3

Slide 4

Slide 4 text

Copyright coconala Inc. All Rights Reserved. PagerDutyを使い始める前のオンコール運用 Chapter 01 4

Slide 5

Slide 5 text

Copyright coconala Inc. All Rights Reserved. PagerDuty導入前のオンコール運用の課題 5 オンコール運用が建設的に回っていたとは言い難い 以下の課題によって、クリティカルなイ ンシデントの対応が遅れた。 1. アラート発生時のオンコール担 当者が誰かわかりにくく、フォ ローが遅れがち。 2. アラートの通知がメールのみな ので、反応が遅れがち。 3. ↑の結果として、 MTTA(平均確 認時間)が約 10分程度。

Slide 6

Slide 6 text

Copyright coconala Inc. All Rights Reserved. MTTAが長い🤔 ↓ クリティカルな障害の対応が遅れる💦 ↓ ユーザーが離れていってしまう😭 ↓ このループから脱却せねば! 💪 6

Slide 7

Slide 7 text

Copyright coconala Inc. All Rights Reserved. ココナラで PagerDutyを使ってみた Chapter 02 7

Slide 8

Slide 8 text

Copyright coconala Inc. All Rights Reserved. ココナラでPagerDutyを導入した目的 8 MTTAの短縮+αを実現したかった 前述の課題対応として、大きくは以下の3つを 実現したいと考えていた。 1. 複数の監視ツールのアラートを集約 し、架電する仕組みの実現。 2. オンコール担当者不在 or 一定時間 反応がなかったときの自動エスカレー ションの実現。 3. 解決が難しいアラートの速やかな上 位エスカレーションの実現。

Slide 9

Slide 9 text

Copyright coconala Inc. All Rights Reserved. ココナラのざっくりとしたオンコール運用環境 9

Slide 10

Slide 10 text

Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その1 10 運用をツールにアジャストする必要があった まずはPagerDutyの使い方を知っているエ ンジニアが少なく、ツールの使い方の勉強 や試行錯誤するところから着手した。(今 ほど、コミュニティが発達していなかっ たので…) また、労務観点・就業規則観点含むオ ンコール対応のルールを作り込む 必 要があり、ドキュメントの整備が必要だっ た。

Slide 11

Slide 11 text

Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その2 11 PagerDutyをより効率的に使うために試行錯誤した オンコール運用を円滑かつ効率的に実践 していくための手段を模索した。 (今はその機能がPagerDutyにローンチさ れているものもありますが)当時は自作し て利活用することで、”かゆいところに手 が届く”状態を実現していた。 その結果、 PagerDuty導入の効果を 最大化できたと言える。

Slide 12

Slide 12 text

Copyright coconala Inc. All Rights Reserved. 試行錯誤することで、MTTAを 1分程度(当初の 10分の1)まで 短縮することができた!!🎉🎉 12

Slide 13

Slide 13 text

Copyright coconala Inc. All Rights Reserved. いま取り組んでいること Chapter 03 13

Slide 14

Slide 14 text

Copyright coconala Inc. All Rights Reserved. AI Opsの利活用 14 人は人のやるべきことに集中する PagerDutyはAI Opsに関する機能を多数 ローンチしている。(以下は一例) ・アラートの統合と集約 ・障害対応内容の示唆 ・Runbookの実行 ・ポストモーテムの作成 etc 人でないとできないところにフォーカスできれ ば、よりオンコール対応がスムーズに進 められる。

Slide 15

Slide 15 text

Copyright coconala Inc. All Rights Reserved. PagerDutyユーザーコミュニティの盛り上げ 15 「自分の当たり前は誰かの発見」という前提で発信する 新機能の紹介や現時点で未 利用の機能に対する他社の 活用事例などのベストプラ クティスをシェアしあう機 会を創出していく。 イコール、 PagerDutyの ユーザーコミュニティがよ り盛り上がると嬉しい! 😁

Slide 16

Slide 16 text

Copyright coconala Inc. All Rights Reserved. ココナラでは車輪の再発明を いくつかしてしまっていますが💦 PagerDutyを利活用することで、 オンコール運用の質が 格段に上がります!!😁 16

Slide 17

Slide 17 text

Copyright coconala Inc. All Rights Reserved. 17 昨年アドベントカ レンダーへ投稿し た記事が表彰! 🎉 ぜひ、こちらも見て いただけると嬉しい です。

Slide 18

Slide 18 text

Copyright coconala Inc. All Rights Reserved. 18 ぜひ、PagerDuty FANBOOK もご覧ください!!

Slide 19

Slide 19 text

Fin

Slide 20

Slide 20 text

Copyright coconala Inc. All Rights Reserved. Appendix Chapter 06 20

Slide 21

Slide 21 text

Copyright coconala Inc. All Rights Reserved. PagerDutyに関するココナラのアウトプット 21 ● PagerDutyの事例掲載 ○ https://www.pagerduty.co.jp/customers/coconala/ ● PagerDuty Summit 2023の登壇レポート ○ https://zenn.dev/coconala/articles/ca9a60341721f7 ● Findy Toolsのレビュー ○ https://findy-tools.io/products/pagerduty/3/16 ● アドベントカレンダーの記事 ○ https://zenn.dev/coconala/articles/56796b24415ec8

Slide 22

Slide 22 text

Copyright coconala Inc. All Rights Reserved. PagerDutyのココナラ利用事例動画 22

Slide 23

Slide 23 text

Copyright coconala Inc. All Rights Reserved. 事例その1:当日のオンコール担当者を Slackに通知 23 エンジニア全体でオンコール体制の理解を促進 毎日10時にオンコールシフトを切り 替える運用をしており、切り替えタイ ミングで当日のオンコール担当 者をエンジニア全体がいるチャ ンネルへ通知。 自身のカレンダーに自分のオンコー ルシフトを連携しているメンバーが 大多数だが、この通知で認識漏 れを防ぐことも目的としている。

Slide 24

Slide 24 text

Copyright coconala Inc. All Rights Reserved. 事例その2:アラート発生時に当日のオンコール担当者へメンション 24 より気づきやすい仕組みとリマインダを自動化

Slide 25

Slide 25 text

Copyright coconala Inc. All Rights Reserved. 事例その3:アラートのキーワードを元に Runbookを通知 25 アラート対応の効率化を実現 既出のアラートであらかじめRunbookを用 意しているものは、アラートの通知内容 からキーワードを抽出し、 Runbookを Slackに通知。 これによって、Slackを見るだけでイン シデント対応を進めることが可能 、か つ、オンコール担当者以外もアラート 対応を円滑に進めることができる。