Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
SRE Innovation in Metaps
Naomichi Yamakita
August 04, 2021
Technology
0
150
SRE Innovation in Metaps
組織にSREを取り入れたことで起きた変革
Naomichi Yamakita
August 04, 2021
Tweet
Share
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
マイクロサービスを支えるインフラアーキテクチャ/microservice-infra-architecture
naomichi
1
2.6k
Other Decks in Technology
See All in Technology
The role of the data organization as a business progresses
line_developers
PRO
3
810
越境チャレンジの現在地 〜Epic大臣制度の今〜
yousak
0
720
Building smarter apps with machine learning, from magic to reality
picardparis
4
3.2k
2022年度新卒技術研修「良いコードの書き方」講義
excitejp
PRO
0
230
Custom GitHub Actions by Java
kazamori
0
280
20220622_FinJAWS_あのときにAWSがあったらこうできた
taketakekaho
0
100
多様な成熟度のデータ活用を総合支援するKADOKAWA Connectedのデータ組織について
kadokawaconnected
PRO
0
180
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
3
8.9k
サーバレスECにおける Step Functions の使い方 〜ステートマシン全部見せます!〜
miu_crescent
0
170
Build 2022で発表されたWindowsアプリ開発のあれこれ振り返ろう
hatsunea
1
360
Data in Google I/O - IO Extended GDG Seoul
kennethanceyer
0
150
What's new in Vision
satotakeshi
0
140
Featured
See All Featured
Documentation Writing (for coders)
carmenhchung
48
2.5k
Reflections from 52 weeks, 52 projects
jeffersonlam
337
17k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
104
16k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
151
13k
Rebuilding a faster, lazier Slack
samanthasiow
62
7.2k
Making the Leap to Tech Lead
cromwellryan
113
7.4k
The Web Native Designer (August 2011)
paulrobertlloyd
74
1.9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
39
13k
Large-scale JavaScript Application Architecture
addyosmani
499
110k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
7
1.1k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
226
15k
Bash Introduction
62gerente
597
210k
Transcript
SRE Innovation in Metaps 組織にSREを取り入れたことで起きた変革
Who are you? Naomichi Yamakita Metaps SRE Manager / Tech
Lead naomichi-y
メタップスの概要
従来の開発体制
SREチーム編成後の開発体制
メタップスのSREに求められる役割 インフラ設計・構築 開発支援 ・要件ヒアリング ・技術選定 ・設計 ・SLI / SLOの策定 ・環境構築
・クラウドネイティブに適した設計のサポート ・インテグレーション ・パフォーマンス分析 ・開発支援ツールの開発 インフラ運用 ・サービスの監視 ・オンコール対応 ・ポストモーテム ・システムの信頼性向上 ・スケーラビリティの改善 ・構成管理のアップデート ・運用の自動化 ・各種ミドルウェアのチューニング ・コスト最適化 ・セキュリティ改善 ・監査対応 ・ランブック / プレイブックの作成
SREのミッション • メタップスグループにおけるインフラ運用のエキスパート ◦ インフラ基盤となるプラットフォームの設計・構築をはじめ、運用の自動化、オンコール対応、クラウ ドネイティブな視点からのアプリケーション開発支援、セキュリティ対策といった幅広いスキル・知見 が求められる • 運用フレームワークの各社展開 ◦
インフラ運用の要となるフレームワークを各社展開すると共に、 SREがインフラ運用やアプリケー ション開発を支援。各社で培ったノウハウを取り入れつつ、フレームワークの強化・定常的な構成管 理のアップデートを目指す
アプリケーション基盤
SREチームによるインフラ基盤の提供 IaC Terraform GitHub / AWS / Datadog / PagerDuty
インフラ監視 Datadog Infrastructure / Datadog Synthetics インフラ・SLO・不正ログの監視 クラウド基盤 Amazon ECS / AWS Fargate AWS Well-Architectedをベースとした設計 インシデント管理 PagerDuty / Growi DatadogやSentryと連携し、障害発生時に 電話やPush通知を介してオンコール担当者 に連絡を行う CI CircleCI ログ収集基盤 Fluentd ログの整形・アラート通知・配送 デプロイ genova Slackから対話形式によるECS / Fargateへのデ プロイ、GitHub連携の自動デプロイをサポート ログ分析基盤 Kibana / Athena / Datadog Logs / Google BigQuery APM Datadog APM & Continuous Profiler アプリケーションのパフォーマンス分析 IPS / IDS Trend Micro Cloud One Workload Security エラー監視 Sentry BI Metabase / Google Data Portal
• 月に10〜20のアップデートを実施。各プロダクトへの展開を行う • 先月実施したタスクの例 ◦ ECS Execの有効化 ◦ Terraform 1.0へのアップグレード
◦ IAMアカウントのMFA必須化 インフラ構成のアップデート
インフラ構成をアップデートするメリット • インフラは「作って終わり」ではない • インフラ基盤となるSaaSやツールは日々機能アップデートが行われている • インフラ構成を最新の状態にアップデートすることで、システムの自動化や安定性 の向上、コストの削減などが見込まれる
• Embedded SRE + On-Call SRE ◦ SREメンバーは全てのプロダクトを対象にオンコール ローテーションで組み込まれる •
障害対応は全てのSREエンジニアが対応可能 ◦ 障害対応を属人化させない オンコール体制
サービスの信頼性を可視化 • DatadogでSLI / SLOを定義 • 一定の閾値を下がったプロダクトはアラートを通知
Metaps GameDayの実施 • 目的 ◦ システムに故意に障害を発生させ、復旧手順のトラブルシュートを学習する • シナリオ ◦ AWSのAZ障害が発生し、サービスサイトへの接続が不安定となった
• ゴール ◦ サービスへの接続が安定すること • ルール ◦ 事前に復旧手順をまとめたランブックを作成 (事前まで非公開) • 結果 ◦ https://qiita.com/organizations/metaps
組織にSREを取り入れたことで起きた変革 • 責任分界点の分離により、SREはインフラ、開発チームは開発に集中することでお 互いのパフォーマンスが向上 • クラウドネイティブに適した設計手法や運用、セキュリティといった知見が集まり、会 社全体を通してプロダクトごとの課題を可視化
SRE Meet up