Upgrade to Pro — share decks privately, control downloads, hide ads and more …

トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~

Kazuto Kusama
February 13, 2025

トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~

Developers Summit 2025で登壇した資料です

障害対応のイマが分かる年に一度の祭典 PagerDuty on Tour Tokyo 2025、参加申し込み受付中です!
https://www.pagerduty.co.jp/pagerdutyontourtokyo/?cpcode=mktg-jacopen

Kazuto Kusama

February 13, 2025
Tweet

More Decks by Kazuto Kusama

Other Decks in Technology

Transcript

  1. Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering

    Meetup 代表理事 @一般社団法人クラウドネイティブイノベーターズ協会 Organizer @CloudNative Days
  2. “コードに責任を持つ ” メリット • サービス品質が上がる • 開発と運用を分けず一貫して担当することで、リリース後の振る舞いまで 考慮してコードを書くようになる。だれも深夜に叩き起こされたくないの で。 •

    障害対応の迅速化 • 開発者がオンコールにいれば対応のスピードが格段に上がる。 自分たちが開発したシステムを熟知しているため、原因特定や復旧が素 早く行える。
  3. “コードに責任を持つ ” メリット • フィードバックループの高速化 • 開発者が日常的に運用に関与すると、ユーザーからの生のフィードバッ クや本番環境での問題点が直接開発チームに届く • 「不具合→修正」のサイクルが短くなり、サービスの継続的な改善がス

    ピーディーに行える • 運用負荷の軽減とチーム連携の強化 • 従来運用担当に集中しがちだった負荷が分散される 。特定の運用チー ムだけに深夜対応などの負担がかかる状況を和らげ、組織全体で信頼 性向上に取り組む姿勢が生まれる
  4. 運用軽視の「無責任」コード • 必要なログが出ていない / 不明瞭 • エスパー力が求められる問題 • 逆にログが多すぎて探せない •

    目grep力が求められる問題 • ログの出力方法が不適切 • 散在していてすぐに見つけられない • 再起動したら消える • 監視用のフックが存在しない
  5. エスカレーションポリシー • 3-tierのエスカレーションポリシーが標準的 • 1st level サービスに責任を持つチームの誰か • 2nd level

    1st levelで受け取れなかった通知をキャッチ • 3rd level チームリーダー、EM、プロダクトオーナーなど
  6. 疑問: オンコールは SREがやるべきでは? • 明確にNO • SREは信頼性を高めるエンジニアリングを行う専門家であって、オンコール専任 の仕事ではない • SREも開発者もオンコールローテーションに入る

    • プロダクトに関するインシデントはプロダクトチームが、プロダクトを跨ぐインシデン トはSREが担当するという棲み分けをしている例もあり
  7. 「開発者に運用もやらせる」ではなく 「ライフサイクルに責任を持たせる」 Build Test Ship Run スケールアウトがしやすい実装 (コンテナオーケストレーターの自 律復旧に委ねる) ビルドやパッケージングの自

    動化 素早いビルドの工夫 実行パラメータの外部注 入(環境依存の排除) トラブルシュートしやす いログの工夫 インフラのコード化 フィードバックループで改善を続け、呼び出しの頻度を減らす
  8. GUI/CodeによるJob定義と管理 42 42 柔軟なJob起動⼿段 認証 120を超える インテグレーション PagerDuty GenAI によるJob作成⽀援

    オンプレ環境にも セキュアにアクセス Enterprise Runner - Event-Driven - Human-in-the-Loop - スケジューリング Web GUI API CLI Webhook PagerDuty Runbook Automation
  9. 疑問: 家庭の事情もあって深夜・休日の オンコールに入るのは厳しい • そういうケースはあり得るので、ある程度は柔軟に対応すべき • 日中帯シフトのみを担当 • セカンダリ対応 •

    士気・連帯感を保つため、「誰かだけが常に免除」という形にはしないほうがいい • お互い助け合う風土が重要。「何かあったらカバーして貰えないか頼みやす い」雰囲気作り
  10. 1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防

    ライフサイクル全体を通して、インシデントの状況をリアルタイムで可視化 インシデントを特定 ⾃動処理 運⽤改善のための 知⾒を提供 最適な担当者に通知 迅速な解決を⽀援 あらゆるツールから イベントを受信 架電、 SMS、メール Appプッシュ通知、チャット ⾃動エスカレーション スケジュール管理 診断‧修復作業の⾃動化 チーム内外と円滑に連携 クラウド コンテナ マイクロサービス ネットワーク アプリ‧サービス セキュリティ データベース サーバー ソーシャル PagerDuty Operations Cloud インシデントをより早く‧少ないリソースで解決 / 将来のインシデントを未然に防ぐ 担当者が最適な 通知⽅法を選択 対応履歴 MTTA/MTTR 分析 担当者の負荷状況 ポストモーテム 解決のヒントを提⽰ • 過去の類似インシデント • 直近の構成/コード変更 ...etc. 80%-99% ノイズ削減 700+ Integrations
  11. PagerDuty on Tour Tokyo 2025特別サイト 昨年、1000名以上の⽅にご参加いただき、会場が満席となったPagerDuty on Tourが、今年も4⽉10⽇に開催されます! 本イベントは、システム障害対応やIT運⽤の未来を議論する年に1度の特別なカンファレンスです。 富⼠通

    執⾏役員副社⻑ ⾼橋 美波⽒とPagerDuty CEO ジェニファー‧テハダの豪華特別対談、元プロ野球選⼿ ⾥崎 智也⽒の特別講演が決定! さらに⽇本を代表するITリーダーたちが登壇、最新事例や成功の秘訣を共有します。 PagerDuty Chief Executive Officer ジェニファー‧テハダ PagerDuty Chief Product Development Officer ジェフリー‧ハウスマン PagerDuty Japan Country Manager ⼭根 伸⾏ 登壇者‧セッション情報は随時アップデート!お申込み(無料)はこちらから! 富⼠通株式会社 執⾏役員副社⻑ ⾼橋 美波⽒ 野球解説者 元プロ野球選⼿ ⾥崎 智也⽒
  12. 参考リンク • PagerDuty on Tour Tokyo 2025 https://www.pagerduty.co.jp/pagerdutyontourtokyo/ • 間違いだらけのポストモーテム

    - ホントに役立つレビューはこうだ! https://speakerdeck.com/jacopen/jian-wei-itarakenohosutomotemu-hontoniyi-li-ture hiyuhakouta • 燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」 https://www.pagerduty.co.jp/blog/the-human-side-of-being-on-call-5-less ons-for-managing-stress-anxiety-and-life-while-being-on-call/ • セールスアニマルになろう v2 🦄 - スタートアップの営業活動 (1) 🎰 (本セッションの展開のインスパイア元 ) https://speakerdeck.com/tumada/serusuanimaruninarou-v2-sutatoatupufal seying-ye-huo-dong-1