Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE Innovation in Metaps

SRE Innovation in Metaps

組織にSREを取り入れたことで起きた変革

Naomichi Yamakita

August 04, 2021
Tweet

More Decks by Naomichi Yamakita

Other Decks in Technology

Transcript

  1. メタップスのSREに求められる役割 インフラ設計・構築 開発支援 ・要件ヒアリング ・技術選定 ・設計 ・SLI / SLOの策定 ・環境構築

    ・クラウドネイティブに適した設計のサポート ・インテグレーション ・パフォーマンス分析 ・開発支援ツールの開発 インフラ運用 ・サービスの監視 ・オンコール対応 ・ポストモーテム ・システムの信頼性向上 ・スケーラビリティの改善 ・構成管理のアップデート ・運用の自動化 ・各種ミドルウェアのチューニング ・コスト最適化 ・セキュリティ改善 ・監査対応 ・ランブック / プレイブックの作成
  2. SREのミッション • メタップスグループにおけるインフラ運用のエキスパート ◦ インフラ基盤となるプラットフォームの設計・構築をはじめ、運用の自動化、オンコール対応、クラウ ドネイティブな視点からのアプリケーション開発支援、セキュリティ対策といった幅広いスキル・知見 が求められる • 運用フレームワークの各社展開 ◦

    インフラ運用の要となるフレームワークを各社展開すると共に、 SREがインフラ運用やアプリケー ション開発を支援。各社で培ったノウハウを取り入れつつ、フレームワークの強化・定常的な構成管 理のアップデートを目指す
  3. SREチームによるインフラ基盤の提供 IaC Terraform GitHub / AWS / Datadog / PagerDuty

    インフラ監視 Datadog Infrastructure / Datadog Synthetics インフラ・SLO・不正ログの監視 クラウド基盤 Amazon ECS / AWS Fargate AWS Well-Architectedをベースとした設計 インシデント管理 PagerDuty / Growi DatadogやSentryと連携し、障害発生時に 電話やPush通知を介してオンコール担当者 に連絡を行う CI CircleCI ログ収集基盤 Fluentd ログの整形・アラート通知・配送 デプロイ genova Slackから対話形式によるECS / Fargateへのデ プロイ、GitHub連携の自動デプロイをサポート ログ分析基盤 Kibana / Athena / Datadog Logs / Google BigQuery APM Datadog APM & Continuous Profiler アプリケーションのパフォーマンス分析 IPS / IDS Trend Micro Cloud One Workload Security エラー監視 Sentry BI Metabase / Google Data Portal
  4. • Embedded SRE + On-Call SRE ◦ SREメンバーは全てのプロダクトを対象にオンコール ローテーションで組み込まれる •

    障害対応は全てのSREエンジニアが対応可能 ◦ 障害対応を属人化させない オンコール体制
  5. Metaps GameDayの実施 • 目的 ◦ システムに故意に障害を発生させ、復旧手順のトラブルシュートを学習する • シナリオ ◦ AWSのAZ障害が発生し、サービスサイトへの接続が不安定となった

    • ゴール ◦ サービスへの接続が安定すること • ルール ◦ 事前に復旧手順をまとめたランブックを作成 (事前まで非公開) • 結果 ◦ https://qiita.com/organizations/metaps