Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE Innovation in Metaps

SRE Innovation in Metaps

組織にSREを取り入れたことで起きた変革

40103f0e3b05f08dacc1137728a09c57?s=128

Naomichi Yamakita

August 04, 2021
Tweet

More Decks by Naomichi Yamakita

Other Decks in Technology

Transcript

  1. SRE Innovation in Metaps 組織にSREを取り入れたことで起きた変革

  2. Who are you? Naomichi Yamakita Metaps SRE Manager / Tech

    Lead naomichi-y
  3. メタップスの概要

  4. 従来の開発体制

  5. SREチーム編成後の開発体制

  6. メタップスのSREに求められる役割 インフラ設計・構築 開発支援 ・要件ヒアリング ・技術選定 ・設計 ・SLI / SLOの策定 ・環境構築

    ・クラウドネイティブに適した設計のサポート ・インテグレーション ・パフォーマンス分析 ・開発支援ツールの開発 インフラ運用 ・サービスの監視 ・オンコール対応 ・ポストモーテム ・システムの信頼性向上 ・スケーラビリティの改善 ・構成管理のアップデート ・運用の自動化 ・各種ミドルウェアのチューニング ・コスト最適化 ・セキュリティ改善 ・監査対応 ・ランブック / プレイブックの作成
  7. SREのミッション • メタップスグループにおけるインフラ運用のエキスパート ◦ インフラ基盤となるプラットフォームの設計・構築をはじめ、運用の自動化、オンコール対応、クラウ ドネイティブな視点からのアプリケーション開発支援、セキュリティ対策といった幅広いスキル・知見 が求められる • 運用フレームワークの各社展開 ◦

    インフラ運用の要となるフレームワークを各社展開すると共に、 SREがインフラ運用やアプリケー ション開発を支援。各社で培ったノウハウを取り入れつつ、フレームワークの強化・定常的な構成管 理のアップデートを目指す
  8. アプリケーション基盤

  9. SREチームによるインフラ基盤の提供 IaC Terraform GitHub / AWS / Datadog / PagerDuty

    インフラ監視 Datadog Infrastructure / Datadog Synthetics インフラ・SLO・不正ログの監視 クラウド基盤 Amazon ECS / AWS Fargate AWS Well-Architectedをベースとした設計 インシデント管理 PagerDuty / Growi DatadogやSentryと連携し、障害発生時に 電話やPush通知を介してオンコール担当者 に連絡を行う CI CircleCI ログ収集基盤 Fluentd ログの整形・アラート通知・配送 デプロイ genova Slackから対話形式によるECS / Fargateへのデ プロイ、GitHub連携の自動デプロイをサポート ログ分析基盤 Kibana / Athena / Datadog Logs / Google BigQuery APM Datadog APM & Continuous Profiler アプリケーションのパフォーマンス分析 IPS / IDS Trend Micro Cloud One Workload Security エラー監視 Sentry BI Metabase / Google Data Portal
  10. • 月に10〜20のアップデートを実施。各プロダクトへの展開を行う • 先月実施したタスクの例 ◦ ECS Execの有効化 ◦ Terraform 1.0へのアップグレード

    ◦ IAMアカウントのMFA必須化 インフラ構成のアップデート
  11. インフラ構成をアップデートするメリット • インフラは「作って終わり」ではない • インフラ基盤となるSaaSやツールは日々機能アップデートが行われている • インフラ構成を最新の状態にアップデートすることで、システムの自動化や安定性 の向上、コストの削減などが見込まれる

  12. • Embedded SRE + On-Call SRE ◦ SREメンバーは全てのプロダクトを対象にオンコール ローテーションで組み込まれる •

    障害対応は全てのSREエンジニアが対応可能 ◦ 障害対応を属人化させない オンコール体制
  13. サービスの信頼性を可視化 • DatadogでSLI / SLOを定義 • 一定の閾値を下がったプロダクトはアラートを通知

  14. Metaps GameDayの実施 • 目的 ◦ システムに故意に障害を発生させ、復旧手順のトラブルシュートを学習する • シナリオ ◦ AWSのAZ障害が発生し、サービスサイトへの接続が不安定となった

    • ゴール ◦ サービスへの接続が安定すること • ルール ◦ 事前に復旧手順をまとめたランブックを作成 (事前まで非公開) • 結果 ◦ https://qiita.com/organizations/metaps
  15. 組織にSREを取り入れたことで起きた変革 • 責任分界点の分離により、SREはインフラ、開発チームは開発に集中することでお 互いのパフォーマンスが向上 • クラウドネイティブに適した設計手法や運用、セキュリティといった知見が集まり、会 社全体を通してプロダクトごとの課題を可視化

  16. SRE Meet up