$30 off During Our Annual Pro Sale. View Details »

[SRE NEXT 2022]メルカリグループにおけるSREs

srenext
May 21, 2022

[SRE NEXT 2022]メルカリグループにおけるSREs

SRE NEXT 2022
https://sre-next.dev/2022/

[Speaker]
株式会社メルカリ JP Development Engineering Mgmt: @deeeet
株式会社メルペイ JP Development Engineering Mgmt: @foostan

[Description]
前回のSRE NEXT2020では「絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長」というタイトルで発表しました。
そこから約2年半が経過して、今回のSRE NEXT 2022ではどのようにメルカリグループが進化したかを踏まえ、複数存在しているSREチームの紹介をいたします。

srenext

May 21, 2022
Tweet

More Decks by srenext

Other Decks in Technology

Transcript

  1. メルカリグループにおけるSREs
    @deeeeet, @foostan at SRE NEXT 2022

    View Slide

  2. View Slide

  3. Embedded SRE at Mercari

    View Slide

  4. Taichi Nakashima
    @deeeet / @tcnksm
    Engineering head of Developer Productivity Engineering

    View Slide

  5. https://e34.fm

    View Slide

  6. Product A Team
    Mercari SRE Merpay SRE
    Service A
    Product B Team
    Service B
    Product C Team
    Service C
    Work closely or embedded
    Platform
    Platform Team
    Infrastructure organization

    View Slide

  7. SRE vs. Platform Engineering

    ● SRE: Production operation, ROAD(*)
    ● Platform Engineering: Developer productivity & experience
    (*) Response, Observability, Availability, and Delivery

    View Slide

  8. Missions

    ● Support product teams to improve service reliability
    ● Spread SRE practices across the organization
    ● Enable Platform toolings

    View Slide

  9. Product A Team
    Mercari SRE
    Product B Team
    ① Assignment
    ② Work
    ③ Rotation
    Embedding System

    View Slide

  10. The Works

    ● Search Infra Team
    ● Monolith API Team

    View Slide

  11. Mercari Search Architecture

    View Slide

  12. Service C
    Monolith
    Service B
    Service E
    Service A
    Mercari and Merpay Microservices
    Google Kubernetes Engine
    On premise
    Service D
    Monolith
    Physical machines
    Monolith Cloud Migration
    Migration

    View Slide

  13. The Works

    ● SRE伝道師としてMicroservices SRE チームが取り組んでいる事例
    ● Kubernetes HPA External Metrics の事例紹介
    ● MicroservicesSREのEmbedded先でのお仕事
    ● Elasticsearch運用ノウハウ

    View Slide

  14. The Works

    ● SRE伝道師としてMicroservices SRE チームが取り組んでいる事例
    ● Kubernetes HPA External Metrics の事例紹介
    ● MicroservicesSREのEmbedded先でのお仕事
    ● Elasticsearch運用ノウハウ

    View Slide

  15. Future

    ● Embedded to the division, instead of the team
    ● Transforming SRE knowledge into the toolings

    View Slide

  16. Merpay SRE Teamが目指すもの
    foostan

    View Slide

  17. JP Development Engineering Mgmt
    Merpay SRE Team
    キーボードの人
    foostan / Kosuke Adachi

    View Slide

  18. 信用を創造して、

    なめらかな社会を創る

    MISSION
    18

    View Slide

  19. メルペイのサービス規模
    70
    microservices
    1000
    pods
    1000
    万人
    マイクロサービスアーキテク
    チャを採用、70以上のマイ
    クロサービス

    1000万人以上の利用者

    ※メルペイ「電子マネー」の登録を行ったユーザ
    と「メルペイコード決済」「ネット決済」「メルペイス
    マート払い(翌月払い・定額払い)」等の利用者
    の合計(重複を除く)2021年12月末時

    1000を超えるKubernetes
    pods


    View Slide

  20. Merpay SRE Teamとして意識していること
    当たり前のようにメルペイを使えるようにする
    メルペイを利用するお客さまにとって最も重要なことは「信頼性」
    が高いこと
    メルペイは金融サービスなので高い信頼性が求められる
    → いつでも使えて当たり前
    → 素早いレスポンスは当たり前
    → お金が正しいのが当たり前

    View Slide

  21. 信頼性を高めることはサービス成長を妨げる?
    サービス成長 信頼性
    新機能、チャレンジ、変化 改善、対応、維持

    View Slide

  22. サービス成長を支えるSREの様々な領域
    サービス成長
    信頼できるインフラ
    新機能、チャレンジ、変化
    開発者の生
    産性向上
    セキュリティ、法的要件、監査、 SLO、道を踏
    み外さないためのガードレール
    リスクの検知
    リスクの除外 障害







    View Slide

  23. Merpay SRE Teamが目指すもの
    信頼できる
    インフラ
    マイクロ
    サービスへ
    の支援
    開発者の
    生産性向上
    金融サービスを支える、信
    頼できるインフラを提供す
    る。
    開発者の生産性を向上し、
    サービス成長を加速させ
    る。
    マイクロサービスを運用す
    る上での課題を解決する。

    View Slide

  24. 信頼できるインフラ
    サービス成長
    信頼できるインフラ
    新機能、チャレンジ、変化
    金融サービスを支えるインフラ
    マルチCDN/Cloud対応
    Observabilityの改善
    セキュリティ強化、監査ログ
    高可用性
    災害対策
    高セキュリティ
    スケーラブル

    View Slide

  25. マイクロサービスへの支援
    Embedded SRE
    SLOベースの運用
    パフォーマンス改善
    CI/CD
    Production-Ready
    guard rails
    Chaos Engineering
    セキュリティ、法的要件、監査、 SLO、道を踏
    み外さないためのガードレール
    リスクの検知
    リスクの除外
    障害







    サービス成長
    新機能、チャレンジ、変化

    View Slide

  26. 開発者の生産性の向上
    サービス成長
    新機能、チャレンジ、変化
    健康的なオンコール
    Playbookの整備
    SLOベースのアラート
    インシデントから学ぶ
    不要なアラートが発生しない
    整備された運用手順と自動化
    開発者の生
    産性向上

    View Slide

  27. まとめ
    ● Merpay SRE Teamとして意識すること
    ○ 当たり前のようにメルペイを使えるようにする
    ● サービス成長を支えるSREの様々な領域
    ○ 信頼性を高めることはサービスの成長を妨げるものではない
    ○ SREはサービス開発以外のすべてに寄与する
    ● Merpay SRE Teamが目指すもの
    ○ 信頼できるインフラ
    ○ マイクロサービスへの支援
    ○ 開発者の生産性向上

    View Slide

  28. We are hiring
    https://sre-next.dev/2022/jobs
    オンラインブースも出展しているので、お
    気軽にお越しください

    View Slide