Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PagerDutyを活用したオンコール運用の軌跡(ココナラ編)

 PagerDutyを活用したオンコール運用の軌跡(ココナラ編)

PagerDuty Japan Community Meetup Vol.2の登壇資料。
https://pagerduty.connpass.com/event/309490/

以下の記事もぜひご覧ください。
https://zenn.dev/coconala/articles/56796b24415ec8

coconala_engineer

March 05, 2024
Tweet

More Decks by coconala_engineer

Other Decks in Technology

Transcript

  1. Copyright coconala Inc. All Rights Reserved. 2 Agenda PagerDutyを使い始める前のオンコール運用 ココナラでPagerDutyを使ってみた

    PagerDutyの推し機能 今後、取り組んでみたいこと これから導入を考えている方へ伝えたいこと 1 2 3 4 5
  2. Copyright coconala Inc. All Rights Reserved. 発表者紹介 3 川崎 雄太 Yuta

    Kawasaki 株式会社ココナラ システムプラットフォーム部 部長 / Head of Information 2020年 株式会社ココナラ入社 去年の自慢はPR TIMESに3回載ったこと✨ Xアカウント(@yuta_k0911)も ぜひフォローしてください!
  3. Copyright coconala Inc. All Rights Reserved. 4 今年の現時点での 自慢は「昨年アドベ ントカレンダーへ

    投稿した記事が表 彰されたこと」で す!🎉 ありがとうございま したっ󰢛
  4. Copyright coconala Inc. All Rights Reserved. 2016年当時のオンコール運用の課題 10 オンコール運用が建設的に回っていたとは言い難い 以下の課題によって、クリティカルなイ

    ンシデントの対応が遅れた。 1. アラート発生時のオンコール担 当者が誰かわかりにくく、フォ ローが遅れがち。 2. アラートの通知がメールのみな ので、反応が遅れがち。 3. ↑の結果として、MTTA(平均確 認時間)が約10分程度。
  5. Copyright coconala Inc. All Rights Reserved. MTTAが長い🤔 ↓ クリティカルな障害の対応が遅れる💦 ↓

    ユーザーが離れていってしまう😭 ↓ このループから脱却せねば!💪 11
  6. Copyright coconala Inc. All Rights Reserved. なぜPagerDutyを採用したの? 13 PagerDutyが一番費用対効果が高いと判断できた 3つの手段とPagerDutyを比較。

    1. 外注 2. Amazon Connect 3. 内製 2016年当時はエンジニアの人数が1 桁〜10名程度だったため、3は捨て 案で、1も費用がかさむので難しく、2 よりも「アドオンされる機能が多かっ た」ことが決め手。
  7. Copyright coconala Inc. All Rights Reserved. ココナラでPagerDutyを導入した目的 15 MTTAの短縮+αを実現したかった 前述の課題対応として、大きくは以下の3つを

    実現したいと考えていた。 1. 複数の監視ツールのアラートを集約 し、架電する仕組みの実現。 2. オンコール担当者不在 or 一定時間反 応がなかったときの自動エスカレーショ ンの実現。 3. 解決が難しいアラートの速やかな上位 エスカレーションの実現。
  8. Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その1 18

    運用をツールにアジャストする必要があった まずはPagerDutyの使い方を知っているエ ンジニアが少なく、ツールの使い方の勉強 や試行錯誤するところから着手した。(今 ほど、コミュニティが発達していなかっ たので…) また、労務観点・就業規則観点含むオ ンコール対応のルールを作り込む必要 があり、ドキュメントの整備が必要だった。
  9. Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その2 19

    PagerDutyをより効率的に使うために試行錯誤した オンコール運用を円滑かつ効率的に実践 していくための手段を模索した。 (今はその機能がPagerDutyにローンチさ れているものもありますが)当時は自作し て利活用することで、”かゆいところに手 が届く”状態を実現していた。 その結果、PagerDuty導入の効果を 最大化できたと言える。
  10. Copyright coconala Inc. All Rights Reserved. 事例その1:当日のオンコール担当者をSlackに通知 20 エンジニア全体でオンコール体制の理解を促進 毎日10時にオンコールシフトを切り

    替える運用をしており、切り替えタイ ミングで当日のオンコール担当者 をエンジニア全体がいるチャンネ ルへ通知。 自身のカレンダーに自分のオンコー ルシフトを連携しているメンバーが 大多数だが、この通知で認識漏 れを防ぐことも目的としている。
  11. Copyright coconala Inc. All Rights Reserved. 事例その3:アラートのキーワードを元にRunbookを通知 22 アラート対応の効率化を実現 既出のアラートであらかじめRunbookを用

    意しているものは、アラートの通知内容 からキーワードを抽出し、Runbookを Slackに通知。 これによって、Slackを見るだけでインシ デント対応を進めることが可能、かつ、 オンコール担当者以外もアラート対応 を円滑に進めることができる。
  12. Copyright coconala Inc. All Rights Reserved. 日本語ドキュメントの拡充 30 これがあれば圧倒的に嬉しいことが増える 日本法人が新しく設立されたばかりなので、

    致し方ない部分ではあるが、日本語のド キュメントがまだ少ない。 主要な情報は英語のドキュメントで提供され ており、PagerDuty Summit 2023のパ ネルディスカッションでもこの話題が挙 がったので、ぜひ対応してほしい。
  13. Copyright coconala Inc. All Rights Reserved. CSのサポートによるオンボーディングや伴走 31 「自分の当たり前は誰かの発見」という前提で発信する 新機能の紹介や現時点で未

    利用の機能に対する他社の 活用事例などのベストプラク ティスをシェアしあう機会 がほしい。 イコール、このコミュニティ がより盛り上がると嬉し い!😁
  14. Copyright coconala Inc. All Rights Reserved. アラートの自動トリアージ機能 32 オンコール運用をもっと効率化していきたい 機械学習的なアプローチなどを用いて、例

    えば以下ができると嬉しい。 ・アラートの中身を見て、対処要否をオ ンコール担当者へ通知 ・アラートの内容から自動でRunbook を作成し、アラート情報に加筆 ・これまでに出たことがないアラートを 明示
  15. Copyright coconala Inc. All Rights Reserved. 24時間・365日稼働しているサービスには欠かせないツール 34 一度使ってみる価値のあるツール 24時間・365日

    で動いているサービスの前 提として、オンコール運用関係者が同じ方 向を向いて動けることが重要。 「障害検知」において、様々あるサードパー ティの情報を統合し、異常を通知するプロセ スが第一歩目となり、現時点で PagerDutyを代替するツールやサービ スはないと考える。
  16. Copyright coconala Inc. All Rights Reserved. オンコール運用に課題感を感じていたら、とりあえず PoCをやってほしい 35 オンコール運用へ組み込めるイメージの具体化が大事

    「14日の無料トライヤル」と公式サイトに書い てあるので、そこでPagerDuty社のサポート を受けつつ、使用感や使いやすさをまず は体感するところから始めてほしい。 そのうえで本番運用に組み込めそう or 組み 込めたら、一緒にユーザーコミュニティの 活性化をしてほしい!😁
  17. Copyright coconala Inc. All Rights Reserved. 情報収集の手段として、コミュニティを活用してほしい 36 TTP(徹底的にパクる)を愚直に行う 先人たちの知見はものすごく大事なので、ベ

    ストプラクティスの収集などを目的にコミュニ ティや今日のイベントを活用してほしい。 そこで得た学びを実践してみて、その結果を フィードバックすることで、一段とコミュニ ティが活性化し、集合知が貯まっていく。
  18. Fin

  19. Copyright coconala Inc. All Rights Reserved. PagerDutyに関するココナラのアウトプット 43 • PagerDutyの事例掲載

    ◦ https://www.pagerduty.co.jp/customers/coconala/ • PagerDuty Summit 2023の登壇レポート ◦ https://zenn.dev/coconala/articles/ca9a60341721f7 • Findy Toolsのレビュー ◦ https://findy-tools.io/products/pagerduty/3/16 • アドベントカレンダーの記事 ◦ https://zenn.dev/coconala/articles/56796b24415ec8