Upgrade to Pro — share decks privately, control downloads, hide ads and more …

0924_Bold Challenge_@tjun

mercari
September 26, 2019

0924_Bold Challenge_@tjun

「メルペイの信頼性へのチャレンジ」
株式会社メルペイ Engineering Manager 高木潤一郎(@tjun)
金融サービスであるメルペイには、いつでも安心して使える信頼性が求められます。メルペイを立ち上げて約半年間運用する中で、サービスの信頼性を実現するためにどのような取り組みをしてきたのか、どんなところが大変だったのかを話します。

■イベント詳細
https://mercari.connpass.com/event/145803/

■採用サイト
https://careers.mercari.com/jp

mercari

September 26, 2019
Tweet

More Decks by mercari

Other Decks in Technology

Transcript

  1. #BoldChallenge 10 SLOを決める = 目指す信頼性の目標を決めるだけでなく、 次のチャレンジへのチャンスを作る基準 SLOと信頼性とお客様の体験 お客様の 体験 信頼性

    (&コスト) SLO SLO以下で 体験が悪い状態 目標以上の信頼性を実現するには 高いコストと時間がかかる 参考: https://cloud.google.com/blog/products/devops-sre/shrinking-the-impact-of-production-inc idents-using-sre-principles-cre-life-lessons
  2. #BoldChallenge 13 メルペイのリリースの難しさ 自分がこれまで 経験してきたサービス • 最初はほとんど使う人が いない • 最小限の機能でまずは

    出して少しずつ改善 • すべて新規開発 メルペイ • メルカリの規模のリクエストが来 る • 金融サービスなので最初から 高い信頼性が求められる • メルカリとの接続、メルカリから の機能移行もある
  3. #BoldChallenge 14 自分とSREがやってきたこと 2018/04 tjun入社 1人目のSRE 2018/05 Mercari Microserivices Platform

    と働くためdeeetさんの隣へ 2018/06- Database選定 Platformの改善 2018/07- メルペイのインフラ構築 SLOなどの仕組み作り 2018/10 インフラリスクへの対応 運用に向けた準備 2018/12 リリースへ向けて…!
  4. #BoldChallenge 15 マイクロサービスアーキテクチャ ➔ マイクロサービスにまたがる決済トランザクション ➔ 独立した開発・リリース・運用をする仕組み ➔ Kubernetes on

    Google Cloud Platform ➔ マイクロサービス間のObservability ➔ マイクロサービスにおける信頼性 技術的なチャレンジ
  5. #BoldChallenge 16 SREがマイクロサービスの信頼性のためにやったこと 見出し ルールや仕組み作り 共通インフラの構築 • インフラの設計構築 • リスク洗い出して対応

    • キャパシティプランニング • SLO • リリースフロー • 障害対応フロー • Production Readiness • QA環境の構築 • 負荷試験 • モニタリング設定 • 設定レビュー リリースのためのサポート ※ SREだけじゃなく、アーキテクト /hidek/PM Office/Microservice Platform team/ Risk team を中心に多くのエンジニアが一緒に対応した
  6. #BoldChallenge 21 Observability • SLOやさまざまなメトリクスを見える状態にする • SLO違反となるような問題をAlertして、気づけるようにする Incident Response •

    Incidentが起きたときに、すぐ気づいて対応することが重要 • 技術的な対応だけではなく、関係者への連絡等組織的なしくみが必要 障害は起きるという前提で考える