Slide 1

Slide 1 text

Copyright coconala Inc. All Rights Reserved. PagerDutyを活用した オンコール運用の軌跡(ココナラ編) 株式会社ココナラ 川崎 雄太 2024/03/05 PagerDuty Community Meetup Vol.2

Slide 2

Slide 2 text

Copyright coconala Inc. All Rights Reserved. 2 Agenda PagerDutyを使い始める前のオンコール運用 ココナラでPagerDutyを使ってみた PagerDutyの推し機能 今後、取り組んでみたいこと これから導入を考えている方へ伝えたいこと 1 2 3 4 5

Slide 3

Slide 3 text

Copyright coconala Inc. All Rights Reserved. 発表者紹介 3 川崎 雄太 Yuta Kawasaki 株式会社ココナラ システムプラットフォーム部 部長 / Head of Information 2020年 株式会社ココナラ入社 去年の自慢はPR TIMESに3回載ったこと✨ Xアカウント(@yuta_k0911)も ぜひフォローしてください!

Slide 4

Slide 4 text

Copyright coconala Inc. All Rights Reserved. 4 今年の現時点での 自慢は「昨年アドベ ントカレンダーへ 投稿した記事が表 彰されたこと」で す!🎉 ありがとうございま したっ󰢛

Slide 5

Slide 5 text

Copyright coconala Inc. All Rights Reserved. 5 ココナラのVision & Mission

Slide 6

Slide 6 text

Copyright coconala Inc. All Rights Reserved. 6 ココナラの事業内容

Slide 7

Slide 7 text

Copyright coconala Inc. All Rights Reserved. ココナラのエンジニア数の変遷 7 事業拡大に合わせて3年で約3倍の組織規模に成長 2020年 2023年 フェーズ 上場前 上場後 エンジニア数 20人強 60人強 リポジトリ数 45 146

Slide 8

Slide 8 text

Copyright coconala Inc. All Rights Reserved. PagerDutyを使い始める前のオンコール運用 Chapter 01 8

Slide 9

Slide 9 text

Copyright coconala Inc. All Rights Reserved. 僕の着任前なので、過去の やり取りから想像で補完します󰢛 9

Slide 10

Slide 10 text

Copyright coconala Inc. All Rights Reserved. 2016年当時のオンコール運用の課題 10 オンコール運用が建設的に回っていたとは言い難い 以下の課題によって、クリティカルなイ ンシデントの対応が遅れた。 1. アラート発生時のオンコール担 当者が誰かわかりにくく、フォ ローが遅れがち。 2. アラートの通知がメールのみな ので、反応が遅れがち。 3. ↑の結果として、MTTA(平均確 認時間)が約10分程度。

Slide 11

Slide 11 text

Copyright coconala Inc. All Rights Reserved. MTTAが長い🤔 ↓ クリティカルな障害の対応が遅れる💦 ↓ ユーザーが離れていってしまう😭 ↓ このループから脱却せねば!💪 11

Slide 12

Slide 12 text

Copyright coconala Inc. All Rights Reserved. そこで出会ったのがPagerDuty 12 当初はオンコール運用の改善を目的に導入しようとした

Slide 13

Slide 13 text

Copyright coconala Inc. All Rights Reserved. なぜPagerDutyを採用したの? 13 PagerDutyが一番費用対効果が高いと判断できた 3つの手段とPagerDutyを比較。 1. 外注 2. Amazon Connect 3. 内製 2016年当時はエンジニアの人数が1 桁〜10名程度だったため、3は捨て 案で、1も費用がかさむので難しく、2 よりも「アドオンされる機能が多かっ た」ことが決め手。

Slide 14

Slide 14 text

Copyright coconala Inc. All Rights Reserved. ココナラでPagerDutyを使ってみた Chapter 02 14

Slide 15

Slide 15 text

Copyright coconala Inc. All Rights Reserved. ココナラでPagerDutyを導入した目的 15 MTTAの短縮+αを実現したかった 前述の課題対応として、大きくは以下の3つを 実現したいと考えていた。 1. 複数の監視ツールのアラートを集約 し、架電する仕組みの実現。 2. オンコール担当者不在 or 一定時間反 応がなかったときの自動エスカレーショ ンの実現。 3. 解決が難しいアラートの速やかな上位 エスカレーションの実現。

Slide 16

Slide 16 text

Copyright coconala Inc. All Rights Reserved. ココナラのざっくりとしたオンコール運用環境 16

Slide 17

Slide 17 text

Copyright coconala Inc. All Rights Reserved. ここで質問です! PagerDutyを使いこなしていますか? ・・・うーん🤔 という方も多いかもしれません。 僕もその1人だと思います💦 17

Slide 18

Slide 18 text

Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その1 18 運用をツールにアジャストする必要があった まずはPagerDutyの使い方を知っているエ ンジニアが少なく、ツールの使い方の勉強 や試行錯誤するところから着手した。(今 ほど、コミュニティが発達していなかっ たので…) また、労務観点・就業規則観点含むオ ンコール対応のルールを作り込む必要 があり、ドキュメントの整備が必要だった。

Slide 19

Slide 19 text

Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その2 19 PagerDutyをより効率的に使うために試行錯誤した オンコール運用を円滑かつ効率的に実践 していくための手段を模索した。 (今はその機能がPagerDutyにローンチさ れているものもありますが)当時は自作し て利活用することで、”かゆいところに手 が届く”状態を実現していた。 その結果、PagerDuty導入の効果を 最大化できたと言える。

Slide 20

Slide 20 text

Copyright coconala Inc. All Rights Reserved. 事例その1:当日のオンコール担当者をSlackに通知 20 エンジニア全体でオンコール体制の理解を促進 毎日10時にオンコールシフトを切り 替える運用をしており、切り替えタイ ミングで当日のオンコール担当者 をエンジニア全体がいるチャンネ ルへ通知。 自身のカレンダーに自分のオンコー ルシフトを連携しているメンバーが 大多数だが、この通知で認識漏 れを防ぐことも目的としている。

Slide 21

Slide 21 text

Copyright coconala Inc. All Rights Reserved. 事例その2:アラート発生時に当日のオンコール担当者へメンション 21 より気づきやすい仕組みとリマインダを自動化

Slide 22

Slide 22 text

Copyright coconala Inc. All Rights Reserved. 事例その3:アラートのキーワードを元にRunbookを通知 22 アラート対応の効率化を実現 既出のアラートであらかじめRunbookを用 意しているものは、アラートの通知内容 からキーワードを抽出し、Runbookを Slackに通知。 これによって、Slackを見るだけでインシ デント対応を進めることが可能、かつ、 オンコール担当者以外もアラート対応 を円滑に進めることができる。

Slide 23

Slide 23 text

Copyright coconala Inc. All Rights Reserved. これらの対策によって、MTTAを 1分程度(当初の10分の1)まで 短縮することができた!!🎉🎉 23

Slide 24

Slide 24 text

Copyright coconala Inc. All Rights Reserved. PagerDutyの推し機能 Chapter 03 24

Slide 25

Slide 25 text

Copyright coconala Inc. All Rights Reserved. 推し機能その1:Incidents 25 アラートに1対1対応しているNoteから対応状況を把握

Slide 26

Slide 26 text

Copyright coconala Inc. All Rights Reserved. 推し機能その2:Insights 26 MTTR(平均対応時間)やインシデント発生傾向をチェック

Slide 27

Slide 27 text

Copyright coconala Inc. All Rights Reserved. 他にも推し機能はありますが、 ぜひ懇親会でお話させてください!😁 27

Slide 28

Slide 28 text

Copyright coconala Inc. All Rights Reserved. 今後、取り組んでみたいこと Chapter 04 28

Slide 29

Slide 29 text

Copyright coconala Inc. All Rights Reserved. ココナラ単体ではなく、 PagerDuty社と一緒に 取り組みたいことを書きました! 29

Slide 30

Slide 30 text

Copyright coconala Inc. All Rights Reserved. 日本語ドキュメントの拡充 30 これがあれば圧倒的に嬉しいことが増える 日本法人が新しく設立されたばかりなので、 致し方ない部分ではあるが、日本語のド キュメントがまだ少ない。 主要な情報は英語のドキュメントで提供され ており、PagerDuty Summit 2023のパ ネルディスカッションでもこの話題が挙 がったので、ぜひ対応してほしい。

Slide 31

Slide 31 text

Copyright coconala Inc. All Rights Reserved. CSのサポートによるオンボーディングや伴走 31 「自分の当たり前は誰かの発見」という前提で発信する 新機能の紹介や現時点で未 利用の機能に対する他社の 活用事例などのベストプラク ティスをシェアしあう機会 がほしい。 イコール、このコミュニティ がより盛り上がると嬉し い!😁

Slide 32

Slide 32 text

Copyright coconala Inc. All Rights Reserved. アラートの自動トリアージ機能 32 オンコール運用をもっと効率化していきたい 機械学習的なアプローチなどを用いて、例 えば以下ができると嬉しい。 ・アラートの中身を見て、対処要否をオ ンコール担当者へ通知 ・アラートの内容から自動でRunbook を作成し、アラート情報に加筆 ・これまでに出たことがないアラートを 明示

Slide 33

Slide 33 text

Copyright coconala Inc. All Rights Reserved. これから導入を考えている方へ伝えたいこと Chapter 05 33

Slide 34

Slide 34 text

Copyright coconala Inc. All Rights Reserved. 24時間・365日稼働しているサービスには欠かせないツール 34 一度使ってみる価値のあるツール 24時間・365日 で動いているサービスの前 提として、オンコール運用関係者が同じ方 向を向いて動けることが重要。 「障害検知」において、様々あるサードパー ティの情報を統合し、異常を通知するプロセ スが第一歩目となり、現時点で PagerDutyを代替するツールやサービ スはないと考える。

Slide 35

Slide 35 text

Copyright coconala Inc. All Rights Reserved. オンコール運用に課題感を感じていたら、とりあえず PoCをやってほしい 35 オンコール運用へ組み込めるイメージの具体化が大事 「14日の無料トライヤル」と公式サイトに書い てあるので、そこでPagerDuty社のサポート を受けつつ、使用感や使いやすさをまず は体感するところから始めてほしい。 そのうえで本番運用に組み込めそう or 組み 込めたら、一緒にユーザーコミュニティの 活性化をしてほしい!😁

Slide 36

Slide 36 text

Copyright coconala Inc. All Rights Reserved. 情報収集の手段として、コミュニティを活用してほしい 36 TTP(徹底的にパクる)を愚直に行う 先人たちの知見はものすごく大事なので、ベ ストプラクティスの収集などを目的にコミュニ ティや今日のイベントを活用してほしい。 そこで得た学びを実践してみて、その結果を フィードバックすることで、一段とコミュニ ティが活性化し、集合知が貯まっていく。

Slide 37

Slide 37 text

Copyright coconala Inc. All Rights Reserved. ココナラでは車輪の再発明を いくつかしてしまっていますが💦 PagerDutyを利用することで、 オンコール運用の質が 格段に上がります!!😁 37

Slide 38

Slide 38 text

Copyright coconala Inc. All Rights Reserved. そして、最後に告知です…!! 38

Slide 39

Slide 39 text

Copyright coconala Inc. All Rights Reserved. ココナラでは、一緒に事業のグロースを 推進していただける様々な領域のエンジ ニアを募集しています。 39

Slide 40

Slide 40 text

ユーザーのストーリーを テクノロジーでサポートする エントリーお待ちしてます! coconala engineer 採用 https://coconala.co.jp/recruit/engineer

Slide 41

Slide 41 text

Fin

Slide 42

Slide 42 text

Copyright coconala Inc. All Rights Reserved. Appendix Chapter 06 42

Slide 43

Slide 43 text

Copyright coconala Inc. All Rights Reserved. PagerDutyに関するココナラのアウトプット 43 ● PagerDutyの事例掲載 ○ https://www.pagerduty.co.jp/customers/coconala/ ● PagerDuty Summit 2023の登壇レポート ○ https://zenn.dev/coconala/articles/ca9a60341721f7 ● Findy Toolsのレビュー ○ https://findy-tools.io/products/pagerduty/3/16 ● アドベントカレンダーの記事 ○ https://zenn.dev/coconala/articles/56796b24415ec8

Slide 44

Slide 44 text

Copyright coconala Inc. All Rights Reserved. PagerDutyのココナラ利用事例動画 44