Slide 1

Slide 1 text

SRE Innovation in Metaps 組織にSREを取り入れたことで起きた変革

Slide 2

Slide 2 text

Who are you? Naomichi Yamakita Metaps SRE Manager / Tech Lead naomichi-y

Slide 3

Slide 3 text

メタップスの概要

Slide 4

Slide 4 text

従来の開発体制

Slide 5

Slide 5 text

SREチーム編成後の開発体制

Slide 6

Slide 6 text

メタップスのSREに求められる役割 インフラ設計・構築 開発支援 ・要件ヒアリング ・技術選定 ・設計 ・SLI / SLOの策定 ・環境構築 ・クラウドネイティブに適した設計のサポート ・インテグレーション ・パフォーマンス分析 ・開発支援ツールの開発 インフラ運用 ・サービスの監視 ・オンコール対応 ・ポストモーテム ・システムの信頼性向上 ・スケーラビリティの改善 ・構成管理のアップデート ・運用の自動化 ・各種ミドルウェアのチューニング ・コスト最適化 ・セキュリティ改善 ・監査対応 ・ランブック / プレイブックの作成

Slide 7

Slide 7 text

SREのミッション ● メタップスグループにおけるインフラ運用のエキスパート ○ インフラ基盤となるプラットフォームの設計・構築をはじめ、運用の自動化、オンコール対応、クラウ ドネイティブな視点からのアプリケーション開発支援、セキュリティ対策といった幅広いスキル・知見 が求められる ● 運用フレームワークの各社展開 ○ インフラ運用の要となるフレームワークを各社展開すると共に、 SREがインフラ運用やアプリケー ション開発を支援。各社で培ったノウハウを取り入れつつ、フレームワークの強化・定常的な構成管 理のアップデートを目指す

Slide 8

Slide 8 text

アプリケーション基盤

Slide 9

Slide 9 text

SREチームによるインフラ基盤の提供 IaC Terraform GitHub / AWS / Datadog / PagerDuty インフラ監視 Datadog Infrastructure / Datadog Synthetics インフラ・SLO・不正ログの監視 クラウド基盤 Amazon ECS / AWS Fargate AWS Well-Architectedをベースとした設計 インシデント管理 PagerDuty / Growi DatadogやSentryと連携し、障害発生時に 電話やPush通知を介してオンコール担当者 に連絡を行う CI CircleCI ログ収集基盤 Fluentd ログの整形・アラート通知・配送 デプロイ genova Slackから対話形式によるECS / Fargateへのデ プロイ、GitHub連携の自動デプロイをサポート ログ分析基盤 Kibana / Athena / Datadog Logs / Google BigQuery APM Datadog APM & Continuous Profiler アプリケーションのパフォーマンス分析 IPS / IDS Trend Micro Cloud One Workload Security エラー監視 Sentry BI Metabase / Google Data Portal

Slide 10

Slide 10 text

● 月に10〜20のアップデートを実施。各プロダクトへの展開を行う ● 先月実施したタスクの例 ○ ECS Execの有効化 ○ Terraform 1.0へのアップグレード ○ IAMアカウントのMFA必須化 インフラ構成のアップデート

Slide 11

Slide 11 text

インフラ構成をアップデートするメリット ● インフラは「作って終わり」ではない ● インフラ基盤となるSaaSやツールは日々機能アップデートが行われている ● インフラ構成を最新の状態にアップデートすることで、システムの自動化や安定性 の向上、コストの削減などが見込まれる

Slide 12

Slide 12 text

● Embedded SRE + On-Call SRE ○ SREメンバーは全てのプロダクトを対象にオンコール ローテーションで組み込まれる ● 障害対応は全てのSREエンジニアが対応可能 ○ 障害対応を属人化させない オンコール体制

Slide 13

Slide 13 text

サービスの信頼性を可視化 ● DatadogでSLI / SLOを定義 ● 一定の閾値を下がったプロダクトはアラートを通知

Slide 14

Slide 14 text

Metaps GameDayの実施 ● 目的 ○ システムに故意に障害を発生させ、復旧手順のトラブルシュートを学習する ● シナリオ ○ AWSのAZ障害が発生し、サービスサイトへの接続が不安定となった ● ゴール ○ サービスへの接続が安定すること ● ルール ○ 事前に復旧手順をまとめたランブックを作成 (事前まで非公開) ● 結果 ○ https://qiita.com/organizations/metaps

Slide 15

Slide 15 text

組織にSREを取り入れたことで起きた変革 ● 責任分界点の分離により、SREはインフラ、開発チームは開発に集中することでお 互いのパフォーマンスが向上 ● クラウドネイティブに適した設計手法や運用、セキュリティといった知見が集まり、会 社全体を通してプロダクトごとの課題を可視化

Slide 16

Slide 16 text

SRE Meet up