$30 off During Our Annual Pro Sale. View Details »

PagerDutyとPostmanの連携によるAPIサービスの高品質なインシデント管理と運用効率改善の実現

 PagerDutyとPostmanの連携によるAPIサービスの高品質なインシデント管理と運用効率改善の実現

Presentation Slides for PagerDuty Summit Japan 2023 (2023.07.26)
LT Session Title: PagerDutyとPostmanの連携によるAPIサービスの高品質なインシデント管理と運用効率改善の実現

Yoichi Kawasaki

July 26, 2023
Tweet

More Decks by Yoichi Kawasaki

Other Decks in Technology

Transcript

  1. All rights reserved by Postman Inc
    PagerDutyとPostmanの連携による
    APIサービスの高品質なインシデント管理
    と運用効率改善の実現
    川崎庸市
    Postman株式会社
    Presentation slides for PagerDuty Summit Japan 2023

    View Slide

  2. テクノロジーエバンジェリスト
    Postman 株式会社
    川崎 庸市
    @yokawasa
    @postman_japan

    View Slide

  3. ちょうど2023年の1月までSREを担当
    ZOZOTOWNマイクロサービスSREのテックリードとして、信頼性の高いプラット
    フォームやサービス構築に従事。オンコール、インシデント対応ではPagerDuty
    をヘビーに活用させていただいていました
    https://events.istio.io/istiocon-2022/sessions/accelerating-z
    ozotown-modernization/
    https://speakerdeck.com/yokawasa/serivce-mesh-
    architecture-at-zozotown-microservices-platform

    View Slide

  4. All rights reserved by Postman Inc
    Postmanとは?
    全世界2,500 万人以上のユーザーに使われている APIを
    構築して利用するためのAPIプラットフォームです。
    APIライフサイクルの各ステップを簡単に行えるようになり、
    APIの共有と開発コラボレーションを効率化できます。

    View Slide

  5. Postman 概要
    会社名 Postman Inc.
    本社所在地 サンフランシスコ, USA
    設立 2014年
    創業者 Abhinav Asthana (CEO)
    Ankit Sobti (CTO)
    Abhijit Kane (Lead Research Associate)
    創業の契機 Abhinav、Ankit、Abhijit が Yahoo India に在
    籍中に自らの作業を効率化するための API ツー
    ルを作成。Chrome Extention として提供したと
    ころ爆発的な人気を博し、
    Postman として創業。
    Abhinav
    Ankit Abhijit
    @postman_japan

    View Slide

  6. Postman の実績
    2,500万人 500,000
    98%
    Postmanを利用して
    いるデベロッパー数
    利用企業数
    Fortune 500企業
    での利用率
    利用者数が伸びているアプリケーション
    オープンAPIをつなぐの最大のハブ
    @postman_japan

    View Slide

  7. Postmanの代表的な機能
    @postman_japan
    ドキュメントを見ながら
    作業できる🚀
    整形されたレスポンスが見られる🚀
    パラメータを変えてすぐ試せる🚀
    エンドポイントを打ち込
    む必要がない🚀
    API のセットを整理し
    ておける🚀

    View Slide

  8. モニター / 監視
    モックサーバー
    パフォーマンステスト
    コレクションテスト
    Postmanの代表的な機能

    View Slide

  9. API 提供側
    ライフサイクル
    API 利用側
    ライフサイクル
    PostmanはAPI提供者と利用者両方の
    APIライフサイクルをサポートするAPIプラットフォーム
    テスト
    開発
    設計
    定義
    デプロイ
    デプロイ
    配布
    監視
    監視
    テスト
    評価
    統合
    発見
    セキュリ
    ティ

    View Slide

  10. しかし(API) サービスを安定的・継続的に提供するた
    めには他にもさまざまな能力・活動が必要
    @postman_japan
    SLI/SLOやエラーバジェットの設定
    監視・観測・計測
    テスト自動化
    インシデント対応・管理
    IaC、CI/CD
    ポストモーテム、再発防止活動
    Blue/Green、カナリアリリース
    負荷試験・キャパシティプラン
    サービス信頼性向上のための活動例

    View Slide

  11. サービス信頼性階層の観点
    Maslowの欲求階層のサービスの信頼性版
    ● 最も基本的なものから最も高度なものまで、 Google SREに
    おいて定義しているサービス信頼性向上のために基礎となる
    要素。
    ● モニタリング、インシデントレスポンス、ポストモーテム / RCA
    はサービス信頼性のまさに土台となる要素。これらなくして
    サービス信頼性の実現はできない。
    Service Reliability Hierarchy https://sre.google/sre-book/part-III-practices/

    View Slide

  12. サービス信頼性階層の観点
    Maslowの欲求階層のサービスの信頼性版
    ● 最も基本的なものから最も高度なものまで、 Google SREに
    おいて定義しているサービス信頼性向上のために基礎となる
    要素。
    ● モニタリング、インシデントレスポンス、ポストモーテム / RCA
    はサービス信頼性のまさに土台となる要素。これらなくして
    サービス信頼性の実現はできない。
    Service Reliability Hierarchy https://sre.google/sre-book/part-III-practices/

    View Slide

  13. インシデント対応力の重要性
    デジタルテクノロジーの活用が進み、デジタルサービスは「いつでも使えて当たり前=オールウェイズオン」の存在へと
    変化しています。インシデント(システム障害)が発生しても迅速に修復し、顧客からの要求にリアルタイムに応じるこ
    とができなければ、収益機会の損失だけでなく、ひいては企業価値の減少に直結する時代を企業は乗り越えていか
    なければなりません。
    競争激化の一途を辿る市場において、顧客から「選ばれる企業」へと成長していくためには、すべての業界においてイ
    ンシデントの修復を迅速に行う組織力、すなわちオペレーショナル・レジリエンスの強化、加えて、将来を見据えたプリ
    ベンティブ(予防的)なインシデント対応が必要です。
    https://www.event-info.com/pagerdutysummitjapan-2023/
    PagerDuty Summit Japan 2023イベントコンセプトの一節

    View Slide

  14. フィードバックループを軸にしたライフサイクル全般の継続
    的な改善が重要
    計画 設計 テスト
    実装 デプロイ 監視
    インシデン
    ト対応
    要件定義
    (RTO/RPO)
    障害識別 回復性
    戦略実装
    信頼性のある
    デプロイ
    フィードバック
    改善
    分析
    ポストモー
    テム
    機能・非機能 反応&対処
    アラート

    View Slide

  15. PagerDutyとのPostman
    インテグレーション機能のご紹介
    @postman_japan
    https://www.pagerduty.com/docs/guides/postman-integration-guide/

    View Slide

  16. PagerDutyインテグレーション処理の流れ
    アラート
    送信
    担当者に
    通知
    Postman監視で閾値を越えた失敗数
    が確認されたらPagerDutyにアラート送信
    PagerDutyの設定にもとづき
    アサインされた担当者に通知
    設定: Escalation Policy、Notification Ruleなど

    View Slide

  17. PagerDutyインテグレーション活用の大きなメリット
    ● インシデント対応フロー自動化によるRTO(目標復旧時間)の極小化
    ○ インシデント対応のフローが自動化され適切なメンバーに通知をルーティングできる
    ○ インシデント対応における考慮点は実に多い
    ■ 優先度は?誰にアサイン、どんな順序で報告?不在だったらどうする?
    ○ 担当者はインシデント対応という本質的な作業に集中できる
    ● 豊富なインテグレーション機能による関連プロセスの効率化
    ○ メジャーなツール、サービスとのインテグレーション機能は一通り揃っており、
    APIを活用すればカスタムなイン
    テグレーションも可能
    ○ モニタリングツール、チャットツール、チケット管理ツールなどとの連携によりインシデント対応〜解決までのプ
    ロセスの自動化が可能

    View Slide

  18. ポストモーテム( 事後分析 )ガイド
    https://postmortems.pagerduty.com/
    失敗から学びましょう!

    View Slide

  19. PagerDutyとPostmanを活用して
    APIサービスの高品質なインシデント管理と運
    用効率改善を実現しましょう!

    View Slide

  20. ありがとうございました
    @postman_japan

    View Slide